본문 바로가기

생각 창고_게임/레벨 디자인

[연구] 강화, 처벌, 관찰학습에 따른 레벨링

강화, 처벌, 관찰학습에 따른 레벨링

by Dreamrugi


1. 왜 이 고찰이 시작되었는가.

  수치적 밸런스가 아닌 플레이 패턴을 구성할 때, 심리학에 기반하여 좀 더 효과적이고 근거있는 레벨을 만들기 위해 조사해보았습니다. '학습'에 관해서는 '파블로프식 조건형성'과 '조작적 조건형성' 2가지가 있지만 여기서 파블로프식 조건형성은 다루지 않습니다.  그 이유는 심리학에 의하면 파블로프식 조건형성은 종의 생존이나 본능에 관련된 것일 경우(예를 들어 식사와 같은)에 효과가 있기 때문에 직접 체험이 아닌 간접 체험으로 이루어진 게임플레이에서는 효과가 없을 것이라 판단하였습니다.


2. 게임플레이와 조작적 조건형성이 연관있는가?

  조작적 조건형성을 쉽게 예를 들면, 팔팔 끓고 있는 주전자를 맨손으로 만졌을 때 뜨거움에 손을 빠르게 뺄 것이고, 이때 우리는 '뜨거운 주전자에 맨손이 닿으면 몹시 뜨거워 아프다'라고 학습하게 되는데 이것이 조작적 조건형성에 의한 학습입니다. 게임 속에서 일어나는 일을 예로 든다면, 불 속성에 면역이 몬스터가 있고 그 몬스터에게 불덩이를 날렸더니 아무런 일이 일어나지 않았을 때, 우리는 '불 속성 면역 몬스터에게 불덩이를 날렸더니 소용이 없다'라는 사실을 학습하게 될 겁니다. 이런 학습 과정을 조작적 조건형성이라고 하는 것이죠. 

 방금 들었던 예시를 보면 알 수 있듯이 사실 게임에서 이루어지는 대부분의 학습의 형태는 조작적 조건형성을 통해 이루어지고 있습니다. 많은 게임 기획자들이 알고 있었든 모르고 있었든 그들은 플레이어들을 대상으로 조작적 조건형성의 실험을 해오고 있었던 것이죠. 그렇기 때문에 이 학습법을 심도있게 연구하고 분석하는 것은 여러모로 게임 플레이에 도움이 될 수 있습니다. 또한 이미 많은 심리학자들이 심리학 연구를 위해 동물부터 인간까지 이 방법을 적용하여 효과를 검증했기 때문에 이 학습법의 효과는 의심할 여지가 없습니다.


그럼 마이어스 심리학에 서술된 것을 기반으로 하여, 조작적 조건형성을 어떻게 활용하면 더 효과적으로 사용할 수 있을지 살펴보도록 하겠습니다.


※ 조작적 조건형성은 행동과 결과를 통해 학습하는 것입니다.

   뜨거운 주전자에 맨살이 닿으면 위험하다는 것을 배우는 것이 좋은 예이죠.



3. 궁극적으로 하고자 하는 것은 무엇인가?

  새삼스럽지만 본격적으로 고찰하기 전에 이 방법을 통해 궁극적으로 무엇을 하고 싶은 것인지 확실히 해서 방향을 잃지 않게 하고 시작해야 합니다. 우리는 이 방법을 통해 플레이어에게 무언가를 '학습'시키고자 하고 있습니다. 그럼 이 학습이라는 것은 무엇을까요?

  사전을 보면 학습이란 경험을 통해 어떤 행동의 변화를 가져오는 것이라 이야기하고 있습니다. 게임에서의 학습은 어떤 행동이 변화하는 것을 이야기하는 것일까요? Art of GameDesign에 의하면 게임은 '문제 풀이 과정(어떤 과제를 제시하고 그를 극복해 나가는)'이라 이야기하고 있습니다.  위에서 언급했던 것들을 종합해보면 이렇게 생각할 수 있습니다. 


"우리(게임 기획자)는 플레이어가 경험을 통해 게임에서 제시된 과제의 대처 방법을 배우길 원한다."


※ 게임을 어떤 문제풀이 과정이라 생각하면 게임 속의 대부분의 요소는 '과제 혹은 문제'로 표현할 수 있습니다. A라는 보스를 어떤 방법으로 처치할 것인가? 다음 등급으로 넘어가기 위해서 성장해야 하는데, 어떤 방법으로 무엇을 성장시킬 것인가? 게임 속 인물에게 원하는 답을 얻어내기 위해 어떤 선택지를 선택할 것인가?



4. 조작적 조건형성 활용하기

  조작적 조건형성을 위해서는 3가지가 필요합니다. 자극, 조작행동(반응) 그리고 결과입니다.

  자극행동을 유도하기 위해 학습자에게 가해지는 환경입니다. 게임으로 따지자면 장애물(이를테면 적 개체나 퍼즐)이라고 할 수 있죠. 자극이 주어지면 학습자는 그에 대한 어떤 반응을 보이게 될 겁니다. 자극을 더 받아들이거나 혹은 자극을 없애거나. 이것이 바로 환경에 가하는 행동조작행동입니다. 게임으로 치자면 적 개체를 제거하려 시도하거나 퍼즐을 해결하려 하는 것이죠. 마지막으로 결과조작행동으로 촉발된 결과를 이야기합니다. 적 개체가 제거되었거나 혹은 퍼즐을 해결하여 보상을 얻는 등의 결과를 이야기할 수 있죠.


- 자극 : 조작행동을 유도하기 위해서 주어지는 환경

- 조작행동 : 학습자가 환경에 가하는 행동

- 결과 : 조작행동으로 인해 일어난 결과


학습자는 주어진 자극에 가한 조작행동과 그에 따른 결과를 '연합' 함으로써 '학습'하게 됩니다.


    "이 자극에 이런 행동을 하면 이런 결과를 얻을 수 있구나!"


  조작적 조건형성은 2가지 방법이 있습니다. 정적 강화(positive reinforcement)와 부적 강화(negative reinforcement)가 그것인데, 이를 게임에서 어떻게 활용할 수 있을지 살펴보고, 심리학에선 이것들을 어떻게 하면 더 강하게 활용할 수 있도록 안내했는지 살펴보겠습니다.


가. 정적 강화 : 어맛! 이건 꼭 해야해!

  정적 강화는 조작행동의 결과로 즐거움을 제공함으로써 그 조작행동을 더 유도하는 것을 이야기합니다. 플레이어에게 '이렇게 하는 것이 더 이득이야!'라고 안내하는 것으로 이 학습의 결과로 어떤 즐거운 경험을 하게 됩니다.

가령 예를 들면 어떤 보스 몬스터가 있는데 게임에서 이 약점에 대한 힌트(자극)을 제공합니다. 그럼 그 힌트를 눈치챈 플레이어가 보스의 약점 공격 (조작행동)을 가하게 되고, 약점을 공격당한 몬스터는 크게 고통스러워 하며 큰 피해를 입게 되죠(결과). 몬스터 헌터를 예로 들면, 몬스터 발자국과 같은 흔적을 조사하여 그들의 약점을 알게 되고, 약점을 공격하면 몬스터에게 큰 피해를 줄 수 있는 형태라 볼 수 있습니다.


나. 부적 강화 : 어맛! 이건 해선 안돼!

  부적 강화는 부정적인 자극을 감소시키거나 제거함으로써 조작행동을 유도합니다. 여기서 매우 주의해야 할 것이 있는데, 잘못된 조작행동에 대해 처벌하는 것이 아니라, '처벌 사건(혐오 사건)을 제거'하는 것이라는 부분입니다. 정적 강화에서는 조작 행동의 결과로 상을 받았다면, 부적 강화에서는 마음에 들지 않던 것을 제거해주는 개념이라고 보면 됩니다.

  게임에서 예를 들면 적의 불 속성 공격에 큰 피해를 입는 상황에서 불 보호막 마법을 사용하면 피해가 줄어드는 형태라고 볼 수 있습니다. 마찬가지로 몬스터 헌터를 예로 들면, 용 결정의 땅에서 테오가 등장하는 용암지대에 들어가면 열기에 지속적으로 피해를 입다가 쿨 드링크 포션을 사용하면 더 이상 피해를 입지 않게 되는 형태입니다.


※ 정적 강화와 부적 강화 구분하기

정적 강화와 부적 강화를 혼동하기 쉬운데, 두 강화의 가장 큰 차이점은 '조작 행동 이전에 처벌 자극이 주어지느냐'를 보고 판단하면 됩니다. 두 강화 모두 몬스터 헌터를 예로 들었는데, 가령 테오 테스카토르를 잡는 상황이라고 했을 때 분명 테오의 약점은 수속성 장비일 겁니다. 그러나 플레이어가 수속성 장비를 차지 않았다고 해서 테오에게 피해를 줄 수 없거나 피해를 덜 입히진 않습니다. 즉 처벌 자극이 없다는 것이고 이는 수속성 장비가 정적 강화라는 이야기입니다. 반면에 용암 지대에 들어갔을 때 피해를 입는 것은 처벌 자극이 계속 주어지는 것이고 쿨 드링크를 사용함으로써 피해를 입지 않는 것은 처벌 자극을 제거한 것이죠. 따라서 이 부분은 부적 강화가 되는 것입니다.

       

※ 몬스터 헌터 월드의 네르기간테(상)과 테오 테스카토르(하)

네르기간테의 뿔 부위 파괴의 경우, 저 뿔이 아닌 다른 곳을 때렸다고 해서 네르기간테의 공략이 특별히 불가능하거나 어려워지진 않습니다. 대신 뿔을 파괴하면 특별한 보상을 얻을 수 있죠. 즉, 처벌 자극이 없이 보상이 주어지는 형태 입니다. 하지만, 테오 테스카토르가 있는 용암 지대의 경우는 쿨 드링크를 섭취하지 않으면 열기로 지속적인 피해를 입습니다. 처벌자극이 주어진다는 것이고 드링크 섭취로 이 자극을 제거하기 때문에 이는 부적강화가 되는 것이죠!



다. 자극과 결과 적극적으로 알리기

  여기서 제가 실무를 하며 깨달은 중요사항이 하나 있습니다. 두 강화 모두 '자극에 가하는 조작 행동의 결과로써 학습한다'라는 것인데, 이 말을 잘 들여다 보면 학습자가 성공적으로 학습하기 위해선 '자극과 조작 행동에 대한 결과를 발견'해야 한다는 사실이 숨어 있습니다. 또한, 심리학에서는 조작적 조건형성을 효율적으로 습득 하기 위해선 '조작 행동 후 즉각적으로 결과를 제공'해야 한다고 하고 있습니다.(심리학에서는 0.5초를 추천하고 있습니다). 

  정리하면 '자극과 조작 행동에 의한 결과(피드백)는 즉각적이고 적극적으로 노출되어야 한다는 것'입니다. 던전, 몬스터 패턴 관련 기획을 진행하고 테스트를 하다보면 테스터들이 '피드백을 확실히 느끼기 어렵다', '뭘 하라는 것인지 모르겠다' 라거나 '왜 죽었는지 모르겠다'라는 식의 반응을 자주 나타냅니다. 기획 단계에서는 흔히 1차적인 부분(보스의 행동이나 플레이어의 조작행동)에만 집중하고 2차적인 부분 (자극과 결과의 안내)을 많이 놓치기 때문에 이 점을 놓치지 않도록 유의해야 합니다.


  예를 들어서 어떤 몬스터가 물리 공격에 내성이 있는 상황(부적 강화)이고, 물리 공격을 시도 했을 때 '물리 공격은 좋지 않다'는 것을 학습해야 한다면 '물리 공격 안 좋음'이라는 자극과 '마법 공격 효과 있음'이라는 결과를 플레이어에게 적극적으로 노출해야 합니다.  만약 물리 공격이 10의 피해를 입히고 마법 공격이 30의 피해를 입힌다면 어떨까요? 기획적으로 보면 아무런 문제가 없어 보이지만, 일단 물리 공격이 통한다는 것을 깨달은 플레이어는 마법 공격을 할 생각을 하지 못 하고 물리 공격만을 시도할 것입니다. 이 부분에서는 '물리 공격 안 좋음'이라는 결과가 제대로 알려지지 않았고, '마법 공격 효과 있음'이라는 결과는 확인할 기회조차 마련되지 못했죠.


  그렇다면 이를 어떻게 개선할 수 있을까요?


  기존의 게임들을 예로 들어보겠습니다. 먼저 '니노쿠니'의 경우는 피해량 표시 UI의 색을 다르게 함으로써 이를 전달했습니다. 적에게 효과가 떨어지는 공격을 가할 경우에는 피해량 글자의 색이 파랗게(자극) 뜨면서 다른 공격을 유도합니다. 또한 효과있는 약점 속성으로 공격하면 몬스터가 기절 상태(결과)에 빠지며 적극적인 피드백을 유도하죠. 국산 온라인 게임인 '마비노기'의 경우는 좀 더 적극적으로 자극을 노출합니다. 면역이 있는 몬스터에게 면역 공격을 시도하면 몬스터의 신체가 빨갛게 번쩍 거리면서 '팅!'하는 공격적인 소리를 노출하며, 공격을 받았음에도 경직하지 않죠. 

       

※ 마비노기의 나이트메어 휴머노이드

자극과 결과의 극단적인 안내의 끝을 보여주는 몬스터로, 자신의 피부색과 말풍선 대사를 통해 자신이 어떤 것에 면역 상태인지 알려주며, 효과 없는 공격을 가하면 '팅!'하는 경쾌한 소리와 함께 붉게 번쩍입니다.



라. 기대성 : 결과를 한층 더 강화하기

  심리학에서는 학습의 결과가 예측 가능한 것일수록 반응은 더 강력해진다고 이야기합니다. 이를 심리학에서는 기대성(expectancy)이라 하는데, 학습자가 학습한 연합(행동과 결과)을 알아차리고 지각할 때 호불호가 더 강력해진다고 봅니다. 이 사실은 '인지'가 학습에 지대한 영향을 미친다는 것이죠.

쉽게 예를 들면 공포 영화를 볼 때를 생각할 수 있습니다. 귀신이 등장하는 어떤 장면이 있다고 했을 때, 아무런 예고 없이 튀어나온다면 깜짝 놀랄 수는 있을 겁니다. 다만 너무 당혹스러워서 상황을 제대로 인지하지 못할 수 있겠죠. 그러나 우리가 대부분의 공포 영화에서 보아왔듯이, 귀신은 아무런 예고없이 나타나지 않습니다. 먼저 등장을 예고하는 음산하고 점차 긴장감을 고조시키는 음악이 흘러 나올 것이며, 영화 속 인물은 무엇인가 튀어나올 것 같은 장소에 들어가려 하거나 이상한 낌새를 느끼고 눈동자를 굴리고 있을 겁니다. 이때 영화를 보는 관람객들은 '안돼...! 나올 것 같아! 곧 나올 거야! 제발 그러지마!'라고 마음 속의 비명을 외치며 고도의 집중을 하게 되며, 이윽고 나올 거라 예상했던 곳이 아닌 예상치 못한 곳에서 튀어나온 귀신을 보고 준비된 반응보다 더 강력한 반응을 보여주게 되는 것이죠.

게임의 경우는 가마수트라에서 발췌한 글, '뒤에 무엇이 있을까'에서 언급한 The Walking Dead에서 사용한 문 트릭을 예로 들 수 있습니다. 게임 속에 등장하는 수많은 닫혀 있는 문을 열면서 등장했던 많은 좀비들을 통해 플레이어는 이미 '문 뒤에는 위험한 것이 있다'라는 것을 학습했을 겁니다. 자극은 닫힌 문이고 조작 행동은 문을 여는 것이며, 결과는 좀비가 있거나 혹은 없는 상황이죠. 닫힌 문을 마주했을 때 플레이어는 이전에 학습했던 사실을 바탕으로 '이 문을 열면 분명 좀비가 있을거야'라는 '기대성'을 발휘하게 됩니다. 문을 바로 여는 것이 아니라 1번의 재확인 시간이 주어졌을 때 이 기대성은 극에 달하게 되며, 이윽고 문을 열었을 때의 결과는 무엇이 되던 간에 그 이상의 반응을 보여주게 되겠죠.

          

※ 더 워킹 데드의 문 트릭

이 게임에서는 문을 열 때 조작 한 번으로 문이 열리지 않습니다. 첫 번째 조작으로 캐릭터는 문을 열 준비를 하고, 두 번째 조작으로 문을 열게 되는데, 이 때 문을 열 준비를 하는 부분에서 문 너머의 존재에 대한 '기대성'이 생기는 것이죠.


마. 관찰 학습 : 좀 더 직접적으로 안내하기

이제까지 위에서 보아왔던 방법들은 모두 플레이어가 직접 몸소 체험하여 학습하는 방법들이었습니다. 직접 체험하는 것은 꾸준히, 그리고 직접 경험함으로써 학습한 것이 쉽게 소거되지 않는 장점이 있습니다. 하지만 단점 역시 존재하죠. 부적 강화의 경우 학습자가 만약 끝까지 의도된 조작 행동을 하지 않는다면 어떻게 될까요? 그는 반복된 실패 경험을 하게 될 것이고 최악의 경우에는 게임에서 이탈하게 될 겁니다.


이런 경우 사용할 수 있는 방법 중 하나가 바로 '관찰 학습(observation learning)'입니다. 심리학에서는 고등 동물, 특히 인간은 직접 경험 없이 다른 개체를 관찰, 모방함으로써 학습할 수 있다고 이야기합니다. 이 과정을 모델링(modeling)이라고 하는데, 실제로 인간은 살아오면서 보는 많은 것들을 모델링하여 대리 강화나 대리 처벌을 경험합니다.(이는 거울 뉴런이라고 하는 전두엽 뉴런 중 하나의 역할이라 합니다.) 즉 학습하지 못할 것이 우려된다면 '대리인'을 내세워서 보고 학습하도록 만들라는 것이죠. 이것을 활용한 아주 적절한 게임이 있는데 바로 고전 명작인 '녹스(NOX)'입니다. 녹스에서 전사를 선택하여 게임을 진행하다보면 건트렛이라는 시험에 도전하는 과제가 등장합니다. 이때 플레이어가 도전을 진행하기 전에 먼저 온 후보생이 도전하는 것을 보여주는데, 그가 모퉁이를 돌아 들어가면 쾅! 하는 소리와 함께 화면이 진동하며 뼈가 이리저리 튀게 됩니다. 이를 통해 플레이어는 '모퉁이를 돌면 큰 충격을 주는 위험한 함정이 있구나'!라는 것을 깨닫게 되는 것이죠!(또한 이것을 통해 기대성을 확보할 수 있기도 합니다.)

       

※ 녹스(NOX)의 건트렛 시험 장면

이 게임에서 가장 유명한 장면 중 하나로, 이미지에서 대사를 하고 있는 저 인물이 잠시 뒤 좌측 모퉁이로 뛰어 돌아가면 큰 울림 및 소리와 함께 사방으로 뼈가 튀게 됩니다.