본문 바로가기

생각 창고_게임/업계 동향

스테이블 디퓨전AI(그림 AI)와 게임 개발

1. 서론

   수년 전의 일이 지금도 생생히 떠오릅니다. 바둑기사 이세돌과 알파고의 세기의 대결. 결과는 알파고의 충격적인 승리. 그 당시까지만해도 AI라는 것이 등장했구나 정도로만 생각했고 아직은 업무에 깊이 파고들 것이라고는 생각하지 않았던 시기였습니다. 하지만 2022년, midjourney, NovelAI, ChatGPT 등 쏟아지기 시작한 AI들은 이제 사람이 하는 일에 적극적으로 개입하기 시작했습니다. 더는 언젠가 도입하겠지라고 마음 놓고 있을 수 없는 상황이 된 것입니다. 그리하여 그렇지 않아도 새 프로젝트를 준비하며 이것들을 도입할 구석이 있을까 고민하던 찰나에, 게임 콘텐츠에 특히 영향을 줄 것으로 예상되는 그림 AI에 관심을 가져봤습니다.

 

필자가 스테이블 디퓨전 AI로 생성한 그림

 

 

2. 스테이블 디퓨전 AI?

  자, 그럼 제 블로그 글들이 늘상 그렇듯 어떤 것에 대해 알아보려면 그것의 정체를 알아야만 합니다. 중요한 것은 너무 깊이 알 필요는 없다는 것입니다. 로직이나 알고리즘까지 파고드는 것은 개발자의 영역이며 도구로써 사용할 우리는 어떻게 사용하는 녀석인지만 알면 되는 것이죠. 우리가 키보드를 사용한다고 내부 구조와 전기 신호 전달 구조를 알 필요는 없는 것처럼 말입니다. 그러니 간략하게 핵심만 살펴보겠습니다.

 

  요리에는 다양한 조리법이 있습니다. 조리기, 끓이기, 굽기... 결과물이 요리라고 하더라도 방법은 다양합니다. 스테이블 디퓨전 AI도 마찬가지입니다. 이것은 AI를 통해 그림을 생성하는 다양한 방법 중 하나이며 그런 방법중에서도 가장 뛰어나고 소스코드가 공개되어 보편화된 방법이라고 보면 됩니다. 예를 들면, midjourney, NovelAI, Waifu Diffusion 등 AI들이 모두 이 스테이블 디퓨전 방식을 사용하여 개발됐다고 생각하면 됩니다.

그럼 생각이 존재하지 않는 이 AI 친구는 도대체 어떻게 그림을 그리는 것일까요? 여기서부터는 조금 기술적으로 들어가는데 최대한 간단히 설명해보겠습니다. 우리가 사용하는 핸드폰의 앱은 어떻게 동작하는 것인가요? 복잡한 과정을 건너뛰고 간단히 하면, 핸드폰이라는 안에 이라는 데이터 집합을 설치한 다음에 필요한 앱을 실행하여 결과를 화면으로 본다고 할 수 있습니다. 이것을 빗대어 설명하면 스테이블 디퓨전 AI라는 모델(혹은 체크포인트)이라고 불리는 데이터 집합을 넣은 뒤 필요한 그림을 생성한다고 할 수 있습니다. 

 

이 스테이블 디퓨전 AI는 틀이고 결과물은 어떤 모델을 사용하냐에 따라 달라진다는 것이 가장 중요한 개념입니다.

 

그럼 midjourney는 뭐고 NovelAI는 뭐냐라는 의문이 생기실 텐데, 핸드폰에는 갤럭시가 있고 갤럭시에는 AOS OS가 들어가며 아이폰에는 IOS OS가 들어가지요. 이처럼 스테이블 디퓨전 AI라는 틀을 가지고 각 회사가 midjourney니 NovelAI니 하는 독자적인 틀을 만든 다음에, 그 틀에 담을 모델을 자사만의 기술로 만들었다고 보면 됩니다.

 

가장 잘 알려진 스테이블 디퓨전 AI 프로그램 중 하나인 '스테이블 디퓨전 웹 UI'

 

 

3. 모델 혹은 체크포인트(.ckpt)

  모델이 제일 중요하다는 것을 알았으니 이제 이것이 뭐하는 녀석인지 한번 살펴보겠습니다. AI의 기본 원리는 학습한 것을 가지고 추론한다는 것입니다. 즉, AI가 무슨 결과물을 만들어내든 반드시 기반이 되는 학습 데이터가 필요합니다. 이것은 그림AI든 ChatGPT든 동일합니다. 그렇다면 AI가 그림을 그리기 위해 필요한 학습 데이터는 무엇일까요? 그렇습니다. 바로 스테이블 디퓨전 AI에서 말하는 모델(체크포인트라고도 하는데 이하 모델로 통칭)이라는 것은 AI가 그림을 생성하기 위해 참고할 그림 학습 데이터의 집합입니다.

자, 그럼 사람의 지식은 그 사람이 여지껏 배운 것에서 나오기 마련입니다. 어떤 교육 과정을 거쳤냐에 따라서 그 사람의 지식이 달라집니다. 그림 AI 역시 마찬가지입니다. 이것 역시 어떤 그림 위주로 학습시킨 모델을 사용하느냐에 따라서 결과가 천차만별로 생성됩니다. 예를 들면, midjourney는 사진 위주로 학습했기 때문에 실제와 같은 이미지를 생성하는데 탁월하지만 애니메이션 느낌은 제대로 생성되지 않습니다. 반면에, NovelAI는 애니메이션 그림을 위주로 학습했기 때문에 미소녀 캐릭터를 그리는데는 탁월하지만 반대로 사진 같은 그림이나 북미 애니메이션 느낌에는 취약합니다.

 

midjourney의 그림(좌)과 NovelAI의 그림(우)

 

그렇다면 궁금합니다. AI에게 내가 원하는 그림을 그리기 위해 얼마나 많은 그림을 학습시켜야 할까요? 이 지점에 대해서 직접 모델을 학습시켜본 모 AI 그림 연구 블로거의 말을 빌리면 최소 1만장 이상이 들었다고 이야기합니다. 하지만 실제로 우리가 익히 들어본 유명 그림 AI들은 학습한 것을 다시 재생성하고 학습하는 식으로 하여 수십만장 이상이라는 이야기도 있습니다. 이렇게 방대한 양을 학습해야 하기 때문에 모델을 직접 학습시키려면 GTX4080 같은 수백만원대의 그래픽 카드가 필요하다고 합니다. 즉, 압도적으로 많은 그림과 고사양 컴퓨터를 필요로 하기 때문에 일반인이 학습시켜 쓰기에는 어려운 것이 사실입니다. 그래서 보통 온라인에 떠도는 무료 모델을 사용하거나 그것에 약간의 조정을 거쳐서 사용하는 것이 일반적입니다. 그리고 물론 이 무료 모델들은 모두 상업적 이용이 불가능하다는 라이선스 제약을 가지고 있습니다.

 

 

4. 그림 AI의 한계점

  여기까지가 사실 스테이블 디퓨전 AI를 사용한 그림 생성의 가장 큰 골자입니다. 이제 눈치가 빠른 분들이라면 이 그림 AI가 가지는 두 가지 치명적인 한계가 있다는 것을 깨달으셨으리라 생각합니다. 하나씩 살펴보겠습니다.

 

저작권 이슈 : 내 그림을 허락도 없이?

  앞서 말씀드린 것처럼 AI가 양질의 그림을 생성하기 위해서는 모델 하나에 수십 수만장의 이미지가 필요합니다. midjourney 같이 실사에 기반한 모델이라면 상대적으로 이미지를 구하기 쉽겠지만, NovelAI 같은 명백히 사람이 그린 그림이라면 한 사람, 아니 대기업에게 그림을 수십만장 그리라고 해도 직접 수량을 채우는 것은 불가능에 가깝습니다. 그래서 그림 AI 모델을 생성하는 사람은 온라인에 올라온 수많은 그림으로 학습시키기 시작했습니다.

물론 그 과정에서 그림을 올린 전세계 아티스트의 동의는 받지 않았습니다. 그런데, 작가 입장에서는 내 그림으로 학습시킨 AI로 돈을 벌겠다는 것부터 기가 막힌데, 심지어 그 그림 AI가 내 그림을 학습해서 내 화풍을 나보다 더 빨리 생성해내기까지 합니다. 이 지점에 대해서는 어차피 신인 아티스트들은 특정 아티스트의 그림을 보고 모작, 모방하며 하니 똑같은 것이 아니냐고 하는 분들도 있습니다만, 중요한 것은 거기에 들어가는 순수한 노력입니다. 아티스트들은 양질의 그림을 그리기 위해 수년의 뼈를 깎는 노력을 들이는 반면, 그림 AI는 학습만 시키면 초등학생도 그런 그림을 만들어내니 말입니다. NovelAI가 일본의 Danbooru라고 하는 이미지 불펌 사이트의 그림으로 학습시킨 모델이라서 크게 논란이 된 것은 가장 유명한 사례라고 할 수 있습니다.

 

따라서, 현 시점에도 전세계적으로 그림 AI와 아티스트 간의 불꽃 튀는 저작권 공방은 현재진행형이며 아직 무엇이 정답이라고 결정된 바가 없습니다. 이에 대한 제 견해는 후술하도록 하겠습니다.

 

스테이블 디퓨전이 흉내낸 지브리 화풍. 지브리가 아직 활동중이었다면 뒷목 잡고 쓰러졌을지도 모를 일입니다.

 

창의성의 한계 : 난 배운 것만 알아

  스테이블 디퓨전 AI는 그림을 생성할 때 학습된 모델 데이터를 사용한다고 말씀드렸습니다. 이것은 반대로 말하면 학습하지 않은 데이터는 생성이 불가능하다는 이야기입니다. 앞서 설명한 midjourney와 NovelAI의 한계에서 어느정도 설명했으나 제가 겪은 더 노골적인 실제 사례를 들어보겠습니다.

 

위의 그림은 제가 스테이블 디퓨전 AI를 테스트하며 생성한 그림입니다. 좌측 그림의 경우, 달빛 아래에서 포효하는 늑대인간을 생성하고자 했으나, 보시다시피 형태가 완전이 뭉게지고 말았습니다. 이후 여러 번 시도를 더 해봤으나 정상적인 늑대인간을 얻는 것은 불가능했습니다. 이 AI 모델에는 늑대인간을 학습한 이미지가 부족했기 때문입니다. 우측 그림은 정의감이 넘치는 10대 소년 기사를 생성하려 시도했지만 어째서인지 매우 여성스러운 포즈를 하고 있는 캐릭터가 결과물로 생성됐습니다. 왜냐하면 이 모델이 가진 대부분의 학습 데이터는 미소녀 그림이라서 소년 기사에게 적합한 포즈가 거의 없기 때문입니다.

 

 

이번에는 위의 그림을 보겠습니다. 소녀 마법사를 생성하려 시도했을 것처럼 보이지만, 놀랍게도 이 그림을 생성할 때 의도했던 것은 할머니 마녀였습니다. 왜 이런 결과가 나왔을까요? 바로 공개 배포된 애니메이션 화풍의 모델들은 할머니 그림을 아예 학습한 적이 없기 때문입니다.

 

이처럼, 그림 AI는 생성에 사용하는 모델에 들어있는 것에 한정해서 생성할 수 있습니다. 무에서 유를 창조해주진 않는다는 것이죠. 그렇다고 직접 학습시키자니, 앞서 서술한 것처럼 새로운 개념을 학습시키려면 고사양 컴퓨터와 수십만장의 이미지가 필요합니다. 그것도 다양한 디자인, 구도, 포즈를 가진 것으로 말입니다. 학습시킬 때는 학습자가 생성된 결과물을 보고 어떤 유형의 이미지의 학습이 부족한지 스스로 판단해서 그것 위주로 학습시켜야 합니다. 옆모습이 잘 안 나온다면 옆모습을 학습시키는 것입니다. 그밖에는 군중씬이라거나 스토리에 따라서 의도된 연출 같은 것들에도 한계가 있습니다. 가령, 그랑블루 판타지에 나오는 캐릭터만 골라서 20명이 서로 치고 받는 것을 그려줘라는 형태는 안된다는 것입니다.

 

위의 내용을 한 장으로 간단히 정리한 것

 

 

5. 결론

  결국 몇일간 지속한 조사 및 연구 끝에 스테이블 디퓨전 AI에 제가 내린 결론은 두 가지입니다.

 

현장을 완전히 대체할 수는 없다 (아직은)

  저작권 이슈 때문은 아닙니다. 항상 신기술이 도입될 때는 많은 반향을 일으켰지만 결국 합의점을 찾거나 제도를 개선하여 해결하는 것처럼 이것 역시 수년 내에 합의점을 찾아 해결될 것이라고 생각합니다. 현장을 대체할 수 없다고 생각하는 이유는 학습된 것만 만들어낼 수 있다는 한계 때문입니다.

앞서 살펴본 것처럼 AI는 학습된 것 내에서만 생성됩니다. 하지만 콘텐츠 제작, 특히 게임 개발은 전에 없던 세계관이 나타나기도 하며 완전 새로운 디자인을 요구할 때가 많습니다. 또한, AI로 그림들이 하나의 일관된 세계관, 디자인, 화풍을 가질 것이라고 기대할 수 없습니다. 그게 가능하려면 그런 이미지만 또 수십만장이 필요할테니 말입니다. 또한, 아주 세세한 디자인 포인트, 예를 들면 어떤 머리핀을 어떻게 하고 있다거나 하는 등의 디테일한 요구는 구현이 어렵습니다. 왜냐하면 그 디테일한 요구를 만족하는 그림을 많이 학습한 적이 없기 때문입니다.

 

뭔가 멋드러지게 만들어진 그림들이 AI가 그렸다고 하며 온라인에 쏟아지니 패닉 현상이 생긴 것 같습니다. 저 역시 그렇게 생각했던 적이 있으니까요. 하지만 실제로 써보고나니 콘텐츠를 기획하는 입장에서 드는 생각은 명확했습니다.

 

분위기나 느낌 레퍼런스 찾는(만드는) 용도 그 이상으로 쓰기는 어렵다

 

물론 midjourney나 NovelAI 같이 자사만의 기술로 압도적인 데이터를 학습시키는 경우도 있습니다. 이게 앞으로 얼마나 발전할지는 모르겠습니다만, 이것들이 언젠가 미래에 위의 한계점을 모두 해결할만큼 압도적인 데이터를 학습해서 그것을 만족시키는  시기가 올 수도 있습니다. 이제 AI 기술 발전은 특이점이 온 것마냥 너무나 빠르게 진보하고 있으니까요. 그렇기 때문에 '아직은'이라는 말을 덧붙였습니다.

 

무수히 많은 캐릭터, 배경, 크리쳐를 일관성 있는 세계관, 화풍, 디자인으로 만드는 건 아직 요원한 일입니다.

 

필수 개발 도구 중 하나로 자리잡을 여지가 있다

  그림 AI를 처음 보자마자 제가 머리속에 들었던 생각은 모션캡쳐와 비슷한 흐름이 될 것 같다는 것이었습니다. 모션캡쳐가 막 탄생하던 시기도 아마 비슷했을 것이라 생각합니다. 애니메이터의 종말이다라거나 누구나 애니메이팅을 할 수 있다는 식의 소문이 줄을 이었을 것이라고 생각합니다. 하지만 지금 개발 현장을 보면 어떤가요? 모션캡쳐를 위한 연기를 전문적으로 하는 사람들이 생겼으며, 모션캡쳐 기술을 다룰 줄 아는 애니메이터가 고급 인력으로 취급받기 시작했습니다.

직접 스테이블 디퓨전 AI를 써보고 드는 생각은 결국 이것입니다. 이건 말만하면 만들어주는 만능 기계가 아니라 아주 끝내주는 '도구'라는 것을 말입니다. 써보신 분들은 아시겠지만 이미지를 생성하기 위해서 작성하는 프롬프트(키워드)는 거의 완성된 그림을 세밀하게 묘사하는 수준으로 매우 디테일하게 써야 합니다. 그런 것은 평소에 이미지에 대한 묘사력을 갈고 닦은 사람이 아니라면 불가능한 일입니다. 또한, 만들어냈다고 끝나는 것이 아닙니다. 퀄러티나 구성에 문제는 없는지, 우리 콘텐츠의 일부로 썼을 때 문제가 없을지 판단하는 심미안 및 조정 능력과, 문제가 있다면 수작업을 해서라도 수정할 수 있는 실력도 필요합니다.

 

맨 위의 그림과 같은 모델을 썼는데도 키워드를 제대로 입력하지 않으면 이런 참사가 벌어질 수 있습니다.

 

하지만 반대로 말하면 이런 아티스트 역량을 보유한 사람이 스테이블 디퓨전 AI를 능숙하게 다룰 수 있다면 그야말로 무시무시한 도구가 될 수 있습니다. 본 작업을 들어가기 위한 러프한 초안 이미지를 그림 AI로 빠르게 뽑아낸 뒤 리터칭하는 형태로 하면 작업 시간을 비약적으로 단축시킬 수 있으며, 특히 i2i(image to image)를 사용하면 내가 원하는 화풍, 구도, 디자인 등을 최대한 유지하면서 중간 결과물을 순식간에 생성할 수 있습니다. 현재 그림 AI를 눈여겨 보고 있는 선구자 아티스트들은 이 i2i 기능을 눈여겨 보고 활용성을 적극 검토하고 있습니다. 아마 앞으로는 그림 AI를 '도구'로써 적극 활용할 수 있는 아티스트가 각광받을 것이며, 머지 않은 미래에 많은 콘텐츠 제작 업계의 아티스트 구인 광고에는 '스테이블 디퓨전 AI를 다룰 수 있는 능력'이 우대사항으로 자리잡게 되지 않을까 생각합니다.

 

출처 : RV 트위터(@retrovenus)

 

 

6. 마치며

  이 글은 스테이블 디퓨전 AI를 위주로 다뤘고 ChatGPT에 대해서는 다루지 않았습니다만, ChatGPT에 대해서 제가 보는 관점 역시 동일합니다. ChatGPT가 코딩까지 해주고 대사도 써준다며 충격 받는 분들이 많이 있습니다만, 그걸 실제로 사용할 사람들이 개발에 접목해보려고 생각하면 생각보다 만능이 아니고 할 수 있는게 제한적이며 결국 도구로써 사용하는 것 이상으로는 불가능합니다. 그 이유는 아래에 제가 첨부한 유튜버 노마드 코더의 영상을 참고하시면 될 듯합니다.

 

결국 핵심은 AI는 학습한 것을 기반으로 입력한대로 출력하기 때문에,

원하는 양질의 결과물을 요구할 수 있는 AI에게 요구할 수 있는, 올바른 질문을 할 수 있는 능력은 필수불가결 합니다.

 

 

스마트폰, 전기차, 하늘을 나는 오토바이, AI... 가끔 드는 생각인데 이 모든 것들이 생긴지 불과 10년 남짓이라는 것에 놀라곤 합니다. 심지어 갈수록 발전 속도는 빨라지고 있는 것처럼 보이는데 앞으로 10년 뒤의 우리 환경은 얼마나 바뀌어있을까요? 인류 역사속에서는 패러다임이 바뀔 때 언제나 저항하는 운동이 있었지만(지동설을 막기 위한 움직임, 러다이트 운동 등) 역사적으로 그 흐름이 막힌 적은 없었습니다.

 

그 어느때보다도 빠르게 변화하고 발전하는 시대.

살아남기 위해서는 뒤쳐지지 않도록 끊임없이 변화에 적응하는 자세를 가지 수밖에 없을 것 같습니다.