딥마인드, 강화학습으로 AI 신기원 연다! 제로에서 시작하는 ‘알파고 제로(AlphaGo Zero)’ 공개

인간의 한계를 뛰어넘는 인공지능(AI) 연구의 중요한 이정표가 될 것

우리가 아는 통상적인 인공지능(AI)은 자연어, 음성 인식과 이미지 분류에서부터 게놈과 신약 발견과 개발에 이르기까지 다양한 분야에서 급속도로 진보하고 있지만 대다수의 경우, 이들은 엄청난 양의 인간의 전문 지식과 데이터를 활용하는 일종의 전문가 시스템인 것이다.

하지만, 이 인간의 지식과 데이터로는 너무 비용이 많이 들거나, 신뢰할 수 없거나, 목표로 하는 접근이 불가능할 수도 있다. 결과적으로 미래의 AI연구는 이 단계 없이 우회하는 것이며, 인간의 입력이 없는 가장 어려운 영역에서 초인적인 성능을 발휘하는 알고리즘을 만드는 것이다.

구글의 자회사 딥마인드는 네이처지에 게재된 논문 “인간 지식 없이 바둑 마스터하기(Mastering the game of Go without human knowledge)” 통해 우리는 이 목표를 향해 중대한 발걸음을 내딛고 있으며, 새로운 알파고 버전인 ‘알파고 제로(AlphaGo Zero)’는 새로운 지식을 발견했고 새로운 수를 창조했다. 이는 인간의 틀이 아닌 인공지능이 스스로 할 수 있는, 인간의 한계를 초월하는 ‘강화학습(reinforcement learning)’으로 인공지능의 새로운 지평을 제시했다고 19일(현지시각) 블로그를 통해 밝혔다.

데미스 하사비스(1976년생, Demis Hassabis) 딥마인드 공동창업자(사진:딥마인드)

데미스 하사비스(1976년생, Demis Hassabis) 딥마인드 공동창업자는 “인공지능이 스스로 학습과 데이터를 만들어 문제해결에 나설 가능성이 열린 것이다. 아예 인간 전문가가 전무하거나 접근조차 불가능한 새로운 영역에서 인공지능은 더욱 빛을 발할 수도 있으며, 인간의 한계를 뛰어넘는 인공지능 연구의 중요한 이정표가 될 것”이라고 밝혔다.

알파고 제로 이전까지 공개된 알파고는 3종류로 2015년 유럽 챔피언 판후이(1981년생, 樊麾)를 꺾은 '알파고 판(AlphaGo Fan/176 GPUs)'이 최초 버전이며, 지난해 3월 이세돌(1983년생) 9단을 꺾은 '알파고 리(AlphaGo Lee/48 TPUs)'가 두번째 버전이다. 이어 올 5월에 세계 랭킹 1위 중국의 커제(1997년생, 柯潔) 9단을 꺾은 것이 '알파고 마스터(AlphaGo Master/4 TPUs)'이다.

기존 알파고는 인간의 기보를 학습하는 과정을 거쳤지만 이번 발표된 ‘알파고 제로(AlphaGo Zero/4 TPUs)’는 바둑의 기본 규칙과 원리만 도움을 받았을 뿐 나머지는 모두 스스로 깨우쳤다. 지난해 3월 370시간 만에 이세돌을 이긴 알파고 리에 100전 전승, 또 40일간 자체 대국으로 학습을 마친 지난 5월 세계 바둑랭킹 1위 커제를 꺾었던 알파고 마스터에도 약 90%의 승률을 보였으며, 더 나아가 자체적으로 전략을 개발하고 창조적인 새로운 정석을 만들어 제시했다.

한편 연구진은 아직 초기 단계이지만, 이번 알파고 제로(AlphaGo Zero)는 인간이 인공지능이 추구하는 이상적인 목표를 향한 중요한 단계로 단백질 폴딩(Protein folding), 에너지 소비 감소 또는 혁신적인 신소재 개발과 같은 다른 구조화된 문제에 적용될 수 있다면 결과적으로 획기적인 변화가 사회에 긍정적인 영향을 미칠 수 있을 것이라고 밝혔다.

참고) 관련 논문 “인간 지식 없이 바둑 마스터하기(Mastering the game of Go without human knowledge)” (논문 바로가기)

김수아 기자 다른기사 보기