웨이브넷, 구글 어시스턴트에 탑재! 영어, 일본어 서비스
웨이브넷, 구글 어시스턴트에 탑재! 영어, 일본어 서비스
  • 김수아 기자
  • 승인 2017.10.05 17:16
  • 댓글 0
이 기사를 공유합니다

WaveNet은 심층 생성 모델에 음성 샘플의 큰 데이터 세트에 훈련된 컨볼루션 신경망을 사용한다.
생생한 오디오 파형을 생성하기 위한 새로운 심층 신경 네트워크 웨이브넷(WaveNet) (사진:딥마인드)

구글의 자회사 딥마인드(DeepMind)는 웨이브넷(WaveNet) 포로토 타입을 발표한지 1년 만에 모든 플랫폼에서 웨이브넷 업데이트된 버전을 사용하여 미국 영어 및 일본어에 대한 구현이 가능해졌으며, 우선 구글 어시스턴트(Google Assistant)에 적용된다고 4일(현지시각) 밝혔다.

딥마인드는 지난해 9월 초, 인간 음성에 가까운 인공지능(AI) 음성 합성 시스템인 웨이브넷을 개발했으며, 기존의 텍스트 음성 변환 시스템(TTS, Text To Speech) 보다 자연스럽고 실제 인간 음성과의 격차를 50% 이상 줄였다고 발표했었다.

또한 웨이브넷은 기존의 기술보다 더 현실감 있는 사운드를 생성할 수 있는 생생한 오디오 파형을 생성하기 위한 새로운 심층신경망(DNN, deep neural networks)을 이용하여 실제 인간의 목소리를 샘플링 하여 합성 음성을 생성한다. 하지만 당시 모델은 연구 프로토 타입이었고 소비자 제품에서 적용하기에는, 배포하기에는 어려움이 있었다.

 

컨볼루션 신경망(convolutional neural network) 구조

업데이트된 웨이브넷의 기술 수준을 구체적으로 어떻게 향상 시켰는지를 이해하려면 기존의 TTS(text-to-speech) 또는 음성 합성 시스템이 어떻게 작동하는지 이해하는 것이 유용하다. 현재 대부분은 연결된 TTS(concatenative TTS)를 기반으로 하며, 이 TTS는 수 시간에 걸쳐 한 명의 성우로부터 수집한 고품질 녹음의 대용량 데이터베이스를 사용한다.

또한 녹음은 작은 군으로 분할되어 결합되거나 필요에 따라 완전한 발음을 형성할 수 있다. 그러나 이러한 시스템은 부자연스러운 소리를 낼 수 있으며, 감정이나 억양과 같은 일련의 변경이 필요할 때마다 완전히 새로운 데이터베이스를 기록해야하므로 수정할 수 없다.

이런 문제 중 일부를 극복하기 위해 파라 메트릭(통계적 매개 변수 음성 합성, Statistical parametric speech synthesis) TTS로 알려진 대체 모델이 사용되기도 한다. 이것은 컴퓨터 생성 음성을 안내하기 위해 문법 및 입 움직임에 관한 일련의 규칙과 매개 변수를 사용하여 소리를 연결해야 하는 필요성을 없애준다.

이번 딥마인드의 WaveNet은 완전히 다른 접근 방식을 취한다. 최초의 논문(다운받기)에서는 초당 16,000개의 샘플을 사용하여 한 번에 한 샘플 씩, 개별 사운드 간에 끊김 없는 전환을 통해 개별 파형을 처음부터 만들 수 있는 심층 생성 모델에 음성 샘플의 큰 데이터 세트에 대해 훈련된 컨볼루션 신경망(convolutional neural network)을 사용하여 만들어졌다.

참고) 아래는 새로운 WaveNet 모델을 사용하여 더 자연스러운 소리를 낼 수 있다는 비교

<US English Voice I>

Current Best Non-WaveNet
 
WaveNet

<US English Voice II>

 
Current Best Non-WaveNet
  
WaveNet

<US English Third Party Voice>

 
Current Best Non-WaveNet
  
WaveNet

<Japanese Voice>

 
Current Best Non-WaveNet
  
WaveNet

또한 트레이닝 단계에서 네트워크는 어떤 음조가 서로 이어지고 어떤 파형이 사실적인지(그리고 그렇지 않은지)와 같은 음성의 기본 구조를 결정했다. 그런 다음 훈련된 네트워크는 한 번에 하나의 샘플을 생성하고 각 샘플은 이전 샘플의 특성을 고려하여 음성을 합성하는 것이다.

결과로 나오는 음성에는 자연스러운 억양 및 립 스맥스(lip smacks)와 같은 기능이 포함되었다. 그것의 '엑센트(accent)'는 훈련된 목소리에 달려있어 혼합 데이터 세트에서 고유한 목소리를 여러 개 만들 수 있는 가능성을 열었으며, 모든 텍스트 음성 변환 시스템과 마찬가지로 WaveNet은 텍스트 입력을 사용, 쿼리에 응답해 생성해야하는 단어를 알려준다.

딥마인드의 WaveNet 팀은 기존(2016년도) 포르토 타입 모델을 사용하여 그러한 고 충실도의 사운드 웨이브를 구축하는 것은 계산적으로 비용이 많이 들었으며, 실제 배포할 수 있는 여건은 아니었다. 그러나 지난 12 개월 동안 연구 팀은 파형을 보다 신속하게 생성할 수 있는 새로운 모델을 개발한 것이다. 이제 웨이브넷은 모든 플랫폼에서 대규모로 실행될 수 있으며, 구글의 최신 TPU 클라우드 인프라에서 출시된 첫 제품이라고 밝혔다.

새롭고 향상된 웨이브넷 모델은 원래 파형을 생성하지만 원래 모델보다 1,000 배 빠른 속도로 생성된다. 즉, 1 초의 연설을 생성하는데 단지 50 밀리초(msec)가 필요하다. 실제로 이 모델은 단지 빠르며, 초당 24,000 개의 샘플로 파형을 생성할 수 있다. 또한 각 샘플의 해상도를 8 비트에서 16 비트로 향상 시켰으며, 콤팩트디스크에서 사용된 해상도와 동일하다.

따라서 인간 청취자와의 테스트에 따르면 새 모델이 자연스럽게 들리며, 음성 품질 평가법(MOS, Mean Opinion Scores)에서 새로운 미국 영어 음성 I 는 1-5의 척도에서 4.347의 평균 의견 점수(MOS)를 얻는다. 인간의 연설도 4.667로 평가된다.

한편 새로운 모델은 또한 기존 웨이브넷의 유연성을 유지하므로 학습 단계에서 많은 양의 데이터를 보다 효율적으로 사용할 수 있다. 특히 여러 목소리의 데이터를 사용하여 네트워크를 학습시킬 수 있다. 이를 통해 원하는 출력 음색에 사용할 수 있는 교육 데이터가 거의 없는 곳에서도 어떤 말의 소리, 색조, 감정, 음조 등에서 기본적인 의미 이외에 문맥에 따라 달리 느껴지는 섬세한 의미 차이를 생성 할 수 있다.

 

 

Tag
#N


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.