통합 검색어 입력폼

AI '파이브', 도타2서 7,215번 승리하는 동안 단 42번 패배하다

조회수 2019. 5. 20. 18:15 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

알파고와 차이점으로 알아보는 도타2 AI '파이브'의 여정

<도타2>에는 나흘간 7,215승 하는 동안 단 42번의 패배만 허락한 팀이 있다. 승률 99%가 넘는 괴물 같은 이 팀은 '오픈AI'가 개발한 인공지능(AI)으로 구성됐다.

 

테슬라 최고경영자 엘론 머스크 등 미국의 IT 경영자들이 2015년 공동 설립한 비영리기관 오픈AI는 뮤지컬을 작곡하는 AI, 잘린 사진을 복구하는 AI 등 다양한 영역에서 새로운 시도를 진행 중이다. <도타2>에서 완벽에 가까운 승률을 기록한 AI '오픈AI 파이브(OPEN AI FIVE)' 역시 AI를 향한 새로운 접근 중 하나다. / 디스이즈게임 송주상 기자

 

 

 

 

 


 

시작은 <도타2>내 '1 vs 1'에 특화된 '오픈AI 1V1 봇(OPEN AI 1V1 BOT)이었다. 2017년 8월 첫 모습을 드러낸 이 AI는 빠른 속도로 프로게이머를 이기기 시작했다. 오픈AI 개발진은 다음 단계로 넘어갔다. 5명이 하는 팀 게임인 <도타2>를 위한 오픈AI 파이브(이하 파이브)가 등장했다.

 

파이브는 작년 6월 아마추어 수준의 팀을 꺾었지만, 이후 세계적인 수준의 프로팀과의 연전에서 연거푸 패배하며 'AI가 프로 수준의 경기를 펼칠 수 있는지' 의구심을 자아냈다. 그리고 채 일 년도 지나지 않은 올해 4월, 작년 도타2 세계대회 우승팀 OG를 2대 0으로 꺾으며 화려하게 돌아왔다. 돌아온 파이브의 정체는 무엇일까.

 

 

# AI 잘 모르지만, 파이브가 알파고보다 똑똑한가요?

 

 

굴착기와 레미콘은 모두 차의 한 종류다. 하지만, 이 둘을 동일 선상에서 비교하지 않는다. 마찬가지로 파이브와 알파고도 비슷한 원리(강화학습)가 바탕인 AI지만 단순 비교할 수 없다. 파이브와 알파고의 표면적인 목표는 같다. 게임의 승리다.  구체적으로 살펴보면, '바둑'과 <도타2> 사이의 차이에 따라 파이브와 알파고의 차이가 다음과 같이 드러난다. 

 

​▶ 경기당 평균 판단 횟수

<도타2> 평균 경기 시간은 45분이다. 1초당 30프레임으로 가정하면, 8만 번이 넘는 프레임이 관찰된다. 파이브는 4프레임마다 행동을 선택했다. 파이브는 평균적으로 경기당 2만 번의 판단을 하는 셈이다. 반면, 알파고는 한 번의 대국에서 평균 150번의 선택을 한다.

 

​▶​ 내가 아는 정보 ≠​ 네가 아는 정보

바둑은 한눈에 바둑판이 들어온다. 대국을 참여하는 인원 모두 바둑판을 통해 같은 정보가 제공된다. 이와 같은 상태를 '완전정보(대칭정보)'라고 한다. 하지만, <도타2>는 서로에게 제공되는 정보가 같지 않다. 상대방의 위치는 확인되기 전까지 보이지 않으며, 어두운 지도는 정보를 차단한다. 파이브는 불완전한 정보를 바탕으로 추론하는 것 뿐만 아니라, 상대의 행동까지 예측해야했다.

 

​▶​ 매 순간 수많은 선택지

바둑의 한 '수'보다 <도타2>의 영웅들은 순간(4프레임)마다 수많은 선택을 할 수 있다. 공격하거나, 자리를 지키거나, 움직인다. 오픈AI는 이런 행동을 모아 대략 17만 개의 행동으로 정리했다. 재사용 대기시간인 스킬을 사용하는 행위 등 불가능한 선택을 빼면 평균적으로 매 순간 천 개 미만의 선택지가 남는다. 바둑은 한 수마다 평균 250개의 선택지가 있다.

 

​▶​ 쏟아지는 정보량

바둑은 약 400개의 관찰 요소(19X19 바둑판)​가 있다. 하지만, <도타2>의 한 경기 속에는 열 종류의 영웅과 건물, 크립, 룬, 나무 등 다양한 요소가 있다. 오픈AI는 <도타2> 개발사인 밸브가 제공하는 Bot API에서 대략 2만 개의 관찰 요소 정보를 받으며 인공지능 학습을 진행했고, 이 관찰 요소만 고려해도 바둑의 50배 수준이다.

 

​▶​ 복잡한 <도타2> 규칙

오랜 기간 발전된 게임인 만큼 <도타2> 규칙은 복잡하다. 다른 MOBA장르에 비해 운의 요소가 강해, 정해진 행동보다 상황에 맞는 접근이 필요한 게임이다. 실제로 규칙을 표현하는 <도타2> 내의 코드 길이는 수십만 줄이 넘는다. 컴퓨터에서 바둑 규칙을 실행하면 나노초(ns, 10^-9 s) 단위로 계산되지만, <도타2>는 밀리초(ms, 10^-3 s) 단위가 걸린다. 약 십만 배 차이다.

 

 

# 인공 지능이 무엇을 기준으로 '승리'를 판단하나요?

 

▲ 파이브는 OG와의 첫 번째 경기 시작 30초 만에 80%의 확률로 자신들이 이긴다고 도발(?)했다.  (출처 : 중계 화면 캡처)

 

실시간으로 진행되는 <도타2>에서 승리하기 위해서는 사람과 AI 모두 순간적인 판단이 중요하다. 프로게이머든 일반 유저든 자신의 경험과 직관을 바탕으로 <도타2> 경기를 매 순간 판단하고 결정한 뒤, 행동한다. AI 파이브는 어떻게 '순간'을 판단할까?

 

파이브는 강화학습 기반의 AI이다. 강화학습은 'AI가 현재 상태에서 특정 행동을 하면 보상을 주고, AI는 특별한 상호 작용(일반적으로 엄청난 수학가 바탕이다)을 통해 보상을 최대화하는 학습'을 말한다. 기본적으로 파이브 역시 '보상을 최대화하는 행동이나 행동 과정'을 선택한다. 

 

규칙이 복잡한 <도타2>인만큼 AI가 골드 이득, 킬, 죽음, 도움, 크립 막타 등​ 신경써야하는 보상의 요소도 다양했다. 그리고 이 보상 요소를 바탕으로 '승리'를 향해 매 순간(4프레임) 판단했다.


파이브의 판단 과정 자체는 간단하다. Bot API로부터 2만 개의 관찰 요소를 받고, 이를 바탕으로 '여덟 가지 내외의 중요한 행동 선택지'로 추린다. 추려진 선택지 중 가장 보상이 큰 행동을 선택하고 4프레임 동안 행동하게 된다. 그리고 4프레임마다 다시 관찰 요소를 바탕으로 다음 행동을 결정한다.  

 

정리 하면, 파이브는 4프레임마다 <도타2> 속 세상을 관찰하고, 이해하고(보상 기반의 행동 평가), 행동한다. 오픈AI에서 제공한 사례를 통해 파이브의 판단과 행동 과정을 구체적으로 살펴보자.

 

▶SCENE : 미드 레인 전투
(출처 : 오픈AI 홈페이지)

바이퍼(오른쪽 하단 초록색 가오리, Viper)가 미드 레인에서 전투를 벌이고 있다. 파이브는 바이퍼의 선택지를 총 일곱 가지(왼쪽 상단)로 정했다. 일곱 가지 선택지는 ▲ 움직이지 않음  ​공격  ​움직임  ​아이템 사용 ▲ 스킬 사용(3종류)이 있다. ​파이브는 이 중 가장 보상이 큰 선택지를 고를 것이다.


(출처 : 오픈AI 홈페이지)

파이브가 바이퍼의 위치를 옮기기로 결정했다면, 바이퍼 기준으로 'XY 좌표계'가 생긴다. 파이브는 보상이 가장 큰 위치를 결정하고 바이퍼를 움직인다.  이 때, 바이퍼의 이동은 '4프레임' 안으로 끝나야 한다. 그보다 길게 이동하기 위해서는 파이브가 4프레임 이후 다시 한번 바이퍼의 위치를 옮기기로 결정해야 한다.

 

(출처 : 오픈AI 홈페이지)

 

바이퍼가 스킬을 사용할 때도 이동하는 상황과 비슷하다. 타깃을 지정하는 스킬은 상대적으로 쉽게 목표를 결정하지만, 타깃이 지정되지 않는 스킬은 다르다. 바이퍼가 논타깃 장판 스킬인 '황천극독' 사용을 선택하는 경우를 고려해보자. 바이퍼는 '4프레임'의 시간 동안 상대 영웅이 움직일 수 있는 영역을 정하고, 이 영역에서 가장 보상이 큰( = 스킬을 맞을 확률이 높은) 위치로 스킬을 사용한다.

 

▲ 파이브가 바라보는 <도타2>는 우리가 보는 버전과는 많이 다르다. 파이브는 '행렬'로 세상을 본다. (출처 : 오픈AI 홈페이지)

 

파이브는 다섯 영웅을 동시에 다루기 때문에, 실제 판단 과정은 바이퍼 사례보다 더 복잡하다. 일대일전용 AI에서 출발한 파이브는 각 영웅을 담당하는 일대일전용 AI 다섯 개로 기본적인 구성이 이뤄졌다. 

 

하지만, 각 AI에게 최선의 선택들이 다를 수도 있고 팀 입장에서는 최선의 선택과 거리가 멀 수도 있다. 일종의 AI끼리 의견 충돌이 생는 것이다. 파이브는 이런 충돌을 '팀스피릿(team spirit)'이라 불리는 내부 AI를 통해 관리한다. 팀스피릿 역시 강화학습 기반 AI로 가장 큰 보상을 고려하며 선택한다. 

 

 

# 인공지능은 처음부터 똑똑하잖아요?

 

▲ 수많은 유저들이 AI에게 패배를 경험했다.

 

파이브는 처음부터 사람에게 승리하는 AI는 아니었다. 하루 180시간 정도 자기 자신과 경기를 하며 발전했다. 자신과의 경기를 통해, 인공 지능은 자신에게 중요한 승리 요소를 배우고, 수정한다. 경기마다 어떤 순간에는 전투가 중요한지, 골드 수급이 중요한지 학습하게 된다. 일종의 경기 피드백 과정을 통해 승리를 위한 판단의 '기준'을 정한다.

 

<스타크래프트2> AI '알파스타'는 다양한 선수와 유저의 리플레이를 통해 게임의 전략을 배웠지만, 파이브는 리플레이를 참고하지 않았다. 판단의 기준을 파이브 스스로 정한 셈이다. 하지만, 다른 전략을 참고하지 않게 되면 수많은 자신과의 경기에서 오히려 자가당착에 빠질 수 있다. 그래서 선택한 방법은 '과거의 파이브'와 경기하는 것이었다. 오픈AI는 현재 파이브끼리의 경기는 80% 수준으로 유지하고, 나머지 20%는 과거의 파이브들과 경기하게 하며 파이브를 발전시켰다.

 

파이브의 첫 전투는 지금과 크게 달랐다. 사람의 경기를 참조하지 않았기 때문에, 모든 영웅은 목적 없이 맵을 걸어만 다녔다. 하지만 몇 시간 동안 자신과 전투한 파이브는 경험이 쌓이며, 조금씩 변해갔다. 영웅들이 각자 레인으로 가고, 골드를 고려하며 수급하기 시작했고, 미드 레인에서 한타를 벌이기도 했다.

 

며칠 동안 폐관 수련을 거친 파이브는 기초적인 수준의 전략을 구사하기까지 했다. 예를 들어 다섯 영웅이 하나의 레인을 강하게 푸시하며 초반 이득을 챙기기도 했으며, 영웅들이 하나의 레인에만 머물지 않고 모든 레인을 유기적으로 돌아다녔다.

 

2017년 3월, 처음으로 파이브는 사람과 경기를 치렀다. 그리고 패배했다. 오픈AI는 체력, 게임 속도, 시작 레벨 등을 랜덤으로 적용해 더 치열한 파이브 자신과의 전투를 진행했다. 더 전술적으로 움직이고, 더 확실한 승리를 판단하는 기준이 생긴 파이브는 이윽고 사람을 이기기 시작했다.

 

2019년 4월 13일, 파이브는 세계대회 우승팀 OG를 2대 0으로 이겼다. 일반 유저를 상대로 진행된 칠천 번이 넘는 게임에서 99%의 승률을 기록했다. 

 

 

# 마지막으로, 우리는 똑똑해진 AI의 노예가 되는 걸까요?

 

 

<도타2>에서 완벽에 가까운 승률을 기록한 파이브이지만, 아직까지 갈 길은 멀다. 파이브와 진행하는 경기에는 ▲ 와딩  ​로샨  ​연막 물약  ​소환물과 환영 사용 등 많은 금지 사항이 있다. 파이브가 현재 사용 가능한 영웅은 17종으로, AI 학습 기간에만 3년이 걸렸다. 현실적으로 <도타2> 모든 영웅을 다루는 모습을 기대하긴 힘들다. 여기에 AI 특유의 빠른 반응 속도로 부족한 전략을 이겨낸다는 비판도 받고 있다.

 

AI로서 성공과 한계 외에도, 파이브는 알파고처럼 많은 것을 남겼다. 일각에서는 알파고가 이세돌을 꺾자, 바둑 흥행과 미래에 대해 걱정했다. 하지만, 프로 바둑 기사들은 오히려 알파고의 기보를 연구하며 바둑의 새로운 지평을 열고 있고, 더 많은 사람들이 기원을 찾고 있다. 무엇보다 이세돌 9단이 보여준 네 번째 경기 '신의 한수'는 AI를 통해 인류는 새로운 가능성을 마주할 수 있다고 보여준 잊지 못 할 장면이었다.

 

▲ 30분에 가까운 장고 끝에 '신의 한수'를 뒀던 이세돌 9단. 알파고와 네 번째 경기의 78수는 인간의 새로운 가능성을 보여줬던 한 수였다. (출처 : 중계 화면 캡처)

 

파이브 역시 <도타2>에서 일반적으로 미드 레인에서 체력과 마나가 필요하면 짐꾼을 이용해 수급하던 과정을 변화시켰다. 파이브는 일반적으로 사용하지 않는 일회용 아이템인 '요정 불꽃'과 '마력 깃든 망고'를 이용해 체력과 마나를 빠르게 채우는 전략을 쓰며 미드 레인에서 강력한 모습을 보였고, 현재는 프로게이머와 유저도 사용하는 전략이 됐다. 

 

아쉽게도(?) 강화학습 기반의 AI의 한계상 AI의 노예가 될 가능성은 매우 낮다. 물론 AI에게 패배한 사람 중 하나는 될 가능성은 높다.​ 하지만 패배했다고 하여, AI보다 낮은 존재라는 의미가 아니다. 또는, 알파고와 파이브 둘 모두 우리를 대체하는 인공지능이 아니다.​ AI는 모든 것을 해결하기보다는 우리가 잘하는 일을 '더' 잘할 뿐이다. 

 

바둑과 게임의 AI는 경험적 바탕의 직관을 넘어서는 새로운 패러다임을 우리에게 제시했다. 우리는 AI가 제공하는 새로운 가능성에서 더 나은 존재가 되는 길을 찾을 것이다. 늘 그랬듯이.

 

▲ 우린 미래를 볼 수 없다. AI를 통해 많은 반복적인 경험을 대체하여 새로운 가능성을, 나아가 미래를 엿볼 수 있을지도 모른다.

 

 

이 콘텐츠에 대해 어떻게 생각하시나요?