마인즈랩 세계 최초, '다자 음성 분리 및 필터(Voice Filter) 기술' 구현 성공

구현에 성공한 음성 분리 및 필터 기술은 회의록 자동 작성∙전사, 스마트 오피스 환경 구축 등 고도화된 음성인식 기술이 필요한 분야에서 다양하게 상용화될 수...

마인즈랩 세계 최초, 딥러닝 기반 '다자 음성 분리 및 필터(Voice Filter) 기술' 구현(사진:본지)

인공지능(AI) 혁신을 선도하는 마인즈랩(대표 유태준)이 세계 최초로 음성 분리·필터(Voice Filter)기술을 구현했다. 여러 명의 발화가 동시에 겹쳐서 이루어질 때 화자별로 음성을 각각 분리할 수 있는 기술이다. 구글이 관련된 내용으로 논문을 공개한 바는 있으나 실제로 기술을 구현하여 오픈소스로 공개한 것은 마인즈랩이 처음이다.

이번 마인즈랩 브레인팀이 개발한 음성 분리 및 필터 기술은 토론회나 회의에서처럼 다수의 화자가 겹쳐서 동시에 발화하는 음성이 있을 때 화자별로 음성을 각각 분리할 수 있는 딥러닝 기술로, 현존하는 가장 우수한 기술로 평가받는다. 구글이 지난 10월 논문을 통해 최초로 공개한 적은 있지만 실제 구현체를 공개하지는 않았는데, 마인즈랩이 이 기술을 세계 최초로 구현하고 오픈소스로 공개하는 데 성공한 것이다.

실제로 최근 해당 구글 논문이 업데이트되면서 마인즈랩의 구현 성과가 논문에서도 구체적으로 언급되기도 했다. 구현에 성공한 음성 분리 및 필터 기술은 회의록 자동 작성∙전사, 스마트 오피스 환경 구축 등 고도화된 음성인식 기술이 필요한 분야에서 다양하게 상용화될 수 있다. 마인즈랩은 이번에 구현된 기술을 토대로 가장 높은 기술 수요가 있는 AI 회의록 서비스와 AI 하이브리드 고객센터 서비스를 구체화하고 강화할 계획이다.

두 명의 화자가 겹쳐서 발화하는 음성에서 화자별로 음성을 분리하는 시연이미지

또한 다중 화자 음성인식이 필요한 전 분야에 걸쳐 기술적 한계로 지금까지는 시도하지 못했던 다양한 형태의 음성인식 솔루션을 조만간 마련하는 것도 가능할 것으로 내다보고 있다.

마인즈랩의 브레인팀을 이끌고 있는 최홍섭 상무는 “음성 분리 및 필터 기술은 지난 10월 구글이 논문을 공개하며 높은 관심을 받았지만 자체적으로 오픈소스를 공개하지 않아 연구에 어려움을 겪었는데, 마인즈랩 브레인팀이 이를 세계 최초로 구현하고 3명 이상의 화자까지 분리하는 데 성공했다”고 밝혔다. 이어 “현재 공공과 민간 분야 모두에서 회의록 자동 작성에 대한 기술 수요가 높은 상황인데 이에 빠르게 대처할 수 있게 된 것은 물론 보다 고도화된 음성인식 서비스로 한발짝 나아갈 수 있는 획기적인 R&D 성과로 보고 있다”고 말했다.

마인즈랩은 AI 서비스 플랫폼 마음AI(maum.ai)를 기반으로 AI 핵심 알고리즘부터 AI 엔진, 플랫폼부터 인공지능 서비스까지 통합적으로 제공하고 있는 AI 전문 기업으로, 이미 AI와 전통적 고객센터를 통합한 AI 하이브리드 고객센터·AI 스마트팩토리 및 스마트 시티·AI 기반 영어교육 사업 등에서 구체적인 성과를 보이고 있다. AI 강국인 캐나다의 3대 인공지능 연구기관인 에이미(Amii·Alberta Machine Intelligence Institute)의 글로벌 최초의 멤버사로서 인공지능 알고리즘에 대한 세계적인 수준의 연구를 적극적으로 진행하고 있기도 하다.

최광민 기자 다른기사 보기