아이들처럼 언어를 배우는 인공지능 개발

의미론적 파서(semantic parsers) 개발, 컴퓨터 모델은 인간과 기계 간의 상호 작용을 향상시키고 아이들이 언어를 배우는 방법에 대한 통찰력을 제공할 수 있다.

컴퓨터의 기능을 크게 확장할 수 있는 어린이의 언어 습득 과정을 더 자세히 모방하기 위해 관찰을 통해 학습하는 '의미론적 파서(semantic parsers)' 개발(사진:MIT)

아이들은 환경을 관찰하고 주변 사람들의 이야기를 듣고 보고 듣는 것 사이의 점들을 연결함으로써 언어를 배운다. 무엇보다도 이것은 아이들이 문장과 문장이 어디에 있는지와 같은 언어의 단어 순서를 확립하는 데 도움이 된다. 컴퓨팅에서 학습 언어는 구문 및 의미 구문 분석기의 작업으로 이 시스템은 단어 뒤에 있는 구조와 의미를 설명하는 인간이 주석을 첨부 한 문장에 대해 교육을 받는다.

파서(Parsers)는 웹 검색, 자연어 데이터베이스 쿼리 및 알렉사(Alexa) 및 시리(Siri)와 같은 음성 인식 시스템에서 점차 중요성이 더 해지고 있다. 그러나 말뭉치 주석(annotation) 데이터를 수집하는 것은 공통 언어가 적으면 시간이 오래 걸리고 어려울 수 있다. 또한 인간은 항상 주석에 동의하지 않으며 주석 자체가 사람들이 자연스럽게 말하는 방식을 정확하게 반영하지 않을 수 있다.

MIT의 연구자들이 컴퓨터의 기능을 크게 확장할 수 있는 아이들의 언어 습득 과정을 더 자세히 모방하기 위해 관찰을 통해 학습하는'의미론적 파서(semantic parsers)'를 개발했다. 이 연구 내용은 지난달 31일부터 11월 4일(현지시각) 까지 벨기에 브루셀에서 개최되는 '자연어 처리의 경험적 방법(2018 Conference on Empirical Methods in Natural Language Processing) 컨퍼런스에서 발표된다.

연구원들은 파서의 능력을 크게 확장할 수 있는 아이들의 언어 습득 과정을 보다 자세히 관찰을 통해 학습하는 파서를 설명한다. 언어의 구조를 배우기 위해 파서는 다른 정보가 없는 자막이 있는 비디오를 관찰하고 단어를 기록 된 객체 및 동작과 연결하며, 새로운 문장이 주어지면 파서는 비디오가 없으면 문장의 의미를 정확하게 예측하기 위해 언어 구조에 대해 배운 것을 사용할 수 있다.

제한된 교육 자료가 필요함을 의미하는 이 '약하게 감독 된(weakly supervised)' 접근법은 직접적인 맥락을 제공하는 사람 없이 아이들이 주변 세계를 관찰하고 언어를 배울 수 있는 방법을 모방한다. 이 접근법은 데이터 유형을 확장하고 파서를 훈련하는 데 필요한 노력을 줄일 수 있다고 연구진은 전했다. 예를 들어 몇 가지 직접 주석을 추가 한 문장은 성능 향상을 위해 많은 캡션이 적용된 동영상과 결합될 수 있다.

앞으로 파서는 인간과 개인 로봇 간의 자연스러운 상호 작용을 향상시키는 데 사용될 수 있다. 예를 들어, 파서가 장착 된 로봇은 말하기 문장이 완전히 문법적이거나 명확하지 않은 경우를 포함하여 말의 명령에 대한 이해를 강화하기 위해 환경을 지속적으로 관찰할 수 있다.

이 연구 논문의 공동 저자인 MIT 컴퓨터 과학 및 인공지능연구소(CSAIL)의 연구원 안드레이 바부(Andrei Barbu)는 "사람들은 부분적인 문장, 생각에 가득 차서 말하고 뒤섞인 언어로 서로 이야기 합니다" 라며, "사람들이 자신의 특정한 말하기 방식에 적응하고 그들이 의미하는 바를 알아내는 로봇을 집에 두고 싶어 하기도 합니다. 파서는 아이들이 언어를 배우는 방법을 더 잘 이해하도록 도울 수 있습니다." 라고 말했다.

또한 바브는 " 아이들은 부모님과 형제자매뿐만 아니라 촉각 정보와 시각적 정보를 비롯하여 다양한 방식의 중복적이고 보완적인 정보에 액세스할 수 있습니다. 이 정보는 시각적 정보와 함께 세계를 이해하는 데 도움이 될 것입니다'라고 덧붙였다. 또한 공동 저자인 CSAIL의 인포랩 그룹(InfoLab Group) 수석 연구원인 보리스 카츠(Boris Katz) "이 모든 동시적인 감각 입력을 처리하는 것은 놀라운 퍼즐입니다. 이번 연구는 세계에서 이런 종류의 학습이 어떻게 발생 하는지를 이해하는 더 큰 부분의 일부입니다" 라고 말했다.

한편 이번 연구에서 연구원들은 시맨틱 파서(semantic parser)와 비디오의 대상, 인간 및 활동 인식에 대해 학습받은 컴퓨터 비전 구성 요소를 조합했다. 시맨틱 파서는 일반적으로 각 단어와 그 단어 사이의 관계에 의미를 부여하는 코드로 주석이 첨부 된 문장에 대해 학습을 받는다. 일부는 정지 이미지 또는 컴퓨터 시뮬레이션에 대해 교육을 받았다.

또한 물체를 집어 내거나 내려 놓고 물체를 향해 걸어가는 등 여러 가지 작업을 수행하는 사람들을 묘사하는 약 400 개의 비디오 데이터 세트와 크라우드 소싱 플랫폼에 참여한 Mechanical Turk는 1,200 개의 캡션을 제공했다. 그들은 훈련과 조정을 위한 840개의 비디오 자막 예제를 따로 두고 360개를 시험용으로 사용했다. 특히 비전 기반 파싱을 사용하는 한 가지 이점은 거의 데이터가 필요하지 않으며, 데이터를 보유한 경우에도 대규모 데이터셋으로 확장할 수 있다.

한편 훈련에서, 연구원들은 파서에게 한 문장이 주어진 비디오를 정확하게 묘사하는지 여부를 결정하는 목적과 비디오와 일치하는 자막을 주었다. 파서는 자막의 가능한 의미를 논리적인 수학적 표현으로 추출한다. 예를 들어, "여자가 사과를 집고 있다"라는 문구는 λxy. 여자 x, pick_up x y, 사과 y로 표현될 수 있다(“The woman is picking up an apple,” for instance, may be expressed as: λxy. woman x, pick_up x y, apple y.)

이러한 표현과 비디오는 연구원들이 개발한 센스 트래커(Sentence Tracker)라는 컴퓨터 비전 알고리즘에 입력된다. 알고리즘은 각 비디오 프레임을 관찰하여 시간이 지남에 따라 개체와 사람이 어떻게 변하는지 추적하고 작업이 설명대로 수행되는지 확인한다. 이러한 방식으로, 그것은 그 의미가 비디오의 사실일 가능성이 있는지를 결정한다.

이번 연구는 CBMM(Center for Brains, Minds and Machines), 국립과학재단(National Science Foundation), 포드 재단 연구 연구 펠로우십(Ford Foundation Graduate Research Fellowship), 도요타 미국연구소(Toyota Research Institute), MIT-IBM 브래인-인스파이어드(Brain-Inspired) 등이 지원했다. 연구 논문 제목: Grounding language acquisition by training semantic parsers using captioned videos.(다운받기)

최창현 기자 다른기사 보기