모질라, 음성데이터세트 ‘딥스피치(DeepSpeech)’ 공개
모질라, 음성데이터세트 ‘딥스피치(DeepSpeech)’ 공개
  • 최창현 기자
  • 승인 2017.12.01 13:40
  • 댓글 0
이 기사를 공유합니다

즉시 사용할 수 있도록 Python 또는 Node.JS 쉘 스크립트도 제공
이미지:GitHub 캡쳐 및 본지 편집

모질라(Mozilla)의 기계 학습 그룹은 오픈 소스인 고정밀 음성 인식 모델 ‘딥스피치(DeepSpeech)‘와 음성 데이터 세트를 공식 블로그를 통해 발표했다.

현재 딥스피치는 GitHub에서 공개됐으며, 음성 데이터 세트는 공식 웹 사이트에서 다운로드 할 수 있다. 또한 즉시 개발자나 연구자가 즉시 사용할 수 있도록 Python 또는 Node.JS 쉘 스크립트도 제공되고 있다. 이번 영어를 대상으로 한 세트이지만, 2018 년 상반기에는 점차 다국어로 출시할 예정이라고 한다.

현재 GitHub에서 공개되는 모질라의 딥스피치의 기술적인 특징은 모델은 5 개의 층을 가진 순환형 신경망(RNN; Recurrent Neural Network)을 이용한 기계 학습을 통해 음성 데이터에서 문자·텍스트를 추출, 각각의 음성 데이터와 문자의 대응을 높여 리브리스피치 코퍼스(LibriSpeech Corpus)를 이용한 검증 오류율 6.5 %와 정밀도를 높였다.

Tag
#N

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.