통합 검색어 입력폼

돌아온 '알파고'에 관한 9가지 사실

조회수 2017. 5. 26. 12:59 수정
번역beta Translated by kaka i
번역중 Now in translation
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 다양한 분야의 재밌고 유익한 콘텐츠를 카카오 플랫폼 곳곳에서 발견하고, 공감하고, 공유해보세요.

4. 지금의 알파고는 예전의 알파고를 석 점 깔고 이긴다

1년 전 이세돌 9단과의 대결에서 승리를 거둔 ‘알파고’가 더 강해져서 돌아왔다. 이번에는 중국 우전에서 현재 세계 랭킹 1위인 커제 9단과 대국을 펼치고 있다. ‘알파고’와 관련된 사실 9가지를 정리했다.

출처: 구글
알파고와 대국 중인 이세돌 9단

1. 왜 하필이면 바둑이었을까


딥마인드가 연구 분야로 바둑을 선택한 이유는 바둑이 인류 역사상 가장 오래되고 깊게 연구된 게임이며, 인공지능 알고리즘을 구축하고 이해하기에 적합한 실험 환경을 만들 수 있어서다. 체스와 달리 바둑은 오랫동안 인공지능의 도전 과제로 남아있었다. 바둑 특유의 복잡성 때문이다. 체스는 말이 움직이는 방식이 정해져 있고 가치도 각각 다르지만, 바둑은 자유롭게 돌을 놓는 방식이다. 바둑 경기의 경우의 수는 10의 170제곱에 이른다. 이를 숫자로 풀면

1,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000이다.

출처: 구글

2. 알파고의 학습 방법


알파고는 ‘지도학습’과 ‘강화학습’의 강점을 결합한 새로운 기계학습 기법을 사용한다. 지도학습 과정에서는 바둑판에 돌이 놓인 각 위치를 ‘질문’으로 만들고 특정 수를 가지고 ‘해답’을 제시한다. 이어 강화학습 과정에서는 수를 선택하기 위한 정책을 개선한다. 즉 ‘셀프 대국’을 통해 예측의 정확성을 향상하는 것이다. 이 훈련 과정의 결과는 ‘정책망’으로서, 바둑판의 상태를 추출한 데이터를 활용해 가능한 여러가지 수를 대상으로 개연성을 분석한다. 다음으로 ‘가치망’은 셀프 대국에서 특정 위치에 놓인 돌을 보고 승리 확률을 예측하여 -1(상대편의 승리 확실)부터 1(알파고의 승리 확실)까지의 점수를 매긴다.

출처: 구글

3. 알파고가 돌을 놓는 방법


상대방이 바둑판에 돌을 놓으면 알파고는 몬테카를로 트리 탐색을 수행해 최적의 수를 결정한다. 각 시뮬레이션은 게임 트리에서 하나의 경로를 지나게 되는데, 여기서 정책망에 따라 Q값(해당 수의 가치를 예측한 값)이 높으면서 개연성도 높은 수들을 선택한다. 시뮬레이션은 가치망 예측치와 롤아웃으로 종료된다. 롤아웃은 정책에 기반해 매우 빠른 속도로 계산을 수행한다. 알파고는 시뮬레이션에서 각 수의 Q값을 가치망 예측치와 롤아웃 결과의 평균값으로 업데이트한다. 할당된 탐색 시간이 지나면 알파고는 탐색 횟수가 가장 많은 수를 최적의 수로 판단하고, (이 수의 가치망 예측치가 가장 높지 않더라도) 이에 맞추어 플레이한다. 


정리하자면, 알파고는 먼저 광범위한 탐색 과정을 거친 뒤 시간이 지남에 따라 최적의 수를 다듬어 결정한다는 의미다. 구글은 “인간의 수준에 가까운 알파고 신경망의 직관과 컴퓨터 시스템의 계산 능력을 통합해 강력한 판단력, 선견지명, 정확성을 가진 플레이어가 탄생하게 된다”라고 설명했다. 

출처: 구글

4. 지금의 알파고는 예전의 알파고를 석 점 깔고 이긴다


이세돌 9단과 대국한 알파고는 구글 클라우드 상 50개의 TPU(Tensor Processing Unit)를 사용했다. TPU는 구글이 머신러닝을 위해 특별히 제작한 처리장치다. 1초에 50개의 수와 10만개의 형태를 탐색할 수 있었다. 현재 커제 9단과 대국 중인 알파고는 ‘알파고 마스터’라고 불리는 버전이다. 이번 구글 I/O 에서 공개된 단일 TPU 머신을 사용하며 2016년 버전 대비 10분의 1의 컴퓨팅 파워를 사용하면서도 더 빨리 계산한다. 이번 버전의 가장 큰 특징은 스스로 학습했다는 점이다. 알파고는 스스로와의 대국을 통해 강화학습을 거쳤다. 알파고 마스터는 2016년에 이세돌 9단과 대국했을 때의 알파고보다 훨씬 강하다. 예전의 알파고가 석 점을 깔아도 이기지 못한다. 물론 이는 현재의 알파고가 이전 버전 알파고의 약점을 잘 알고 있는 이유도 있다.

출처: 구글
데미스 허사비스 구글 딥마인드 CEO

5. 알파고의 설계자는 체스 천재였다


알파고의 설계자인 데미스 허사비스는 어렸을 적 체스 영재로 주목받았던 바 있다. 13살에 체스 마스터에 오른 뒤 14살 이하 체스 세계랭킹 2위를 차지했다. 그는 단 한 번 진 적이 있는데, 체스의 전설 유디트 폴가를 만났을 때다. 그는 영국 대학입학 준비과정인 A레벨을 2년 빨리 마쳤고, 17살에는 수백만 판매를 달성한 시뮬레이션 게임 ‘테마파크’를 개발했다.

출처: 구글
알파고와 대국중인 커제 9단

6. 알파고는 바둑판 판매에 기여했다


2016년 당시 2억8천명이 알파고의 대국을 관람했고, 3만5천개의 기사가 게재됐으며, 바둑판의 판매는 10배 증가했다.

출처: wikimedia, CC BY

7. 알파고는 온라인 바둑판도 휘젓고 다녔다


알파고는 온라인에서 정체를 숨기고 바둑을 둔 적이 있다. 지난 1월 알파고는 마스터/마지스터 이라는 아이디로 60회의 온라인 대국을 펼쳤고, 모두 승리했다. 알파고는 한국랭킹 1위인 박정환 9단과 중국랭킹 1위인 커제 9단을 상대로 연승을 거뒀고, 그 외에 수많은 세계대회 우승 경력자에게 패배를 안겼다.

8. 알파고는 프로 9단이다


알파고는 지난해 치러진 이세돌 9단과의 대국에서 4대1로 승리한 최초의 프로그램이다. 이 바둑 대결이 끝난 후 알파고는 ‘창의적이고 훌륭한’ 플레이를 인정받아 바둑 최고 단수인 프로 9단의 타이틀을 부여받았다. 인간이 아닌 기계로서는 최초다.

출처: 딥마인드 블로그

9. 바둑만 잘 하는 게 알파고의 목표는 아니다


딥마인드의 목표는 단순히 바둑을 잘하는 기계를 만드는 데 있지 않다. 딥마인드는 범용적으로 적용돼 주요한 문제를 풀 수 있는 ‘메타 솔루션’을 목표로 한다. 알파고의 발전은 향후 의료, IT, 에너지 절약 등 다양한 분야에서 활용된다. 예컨대 딥마인드는 머신러닝을 활용해 데이터센터의 에너지 최적화를 통해 냉각에 들어가는 에너지의 40%를 절약했다.

이 콘텐츠에 대해 어떻게 생각하시나요?