모질라, 음성데이터세트 ‘딥스피치(DeepSpeech)’ 공개

즉시 사용할 수 있도록 Python 또는 Node.JS 쉘 스크립트도 제공

모질라(Mozilla)의 기계 학습 그룹은 오픈 소스인 고정밀 음성 인식 모델 ‘딥스피치(DeepSpeech)‘와 음성 데이터 세트를 공식 블로그를 통해 발표했다.

현재 딥스피치는 GitHub에서 공개됐으며, 음성 데이터 세트는 공식 웹 사이트에서 다운로드 할 수 있다. 또한 즉시 개발자나 연구자가 즉시 사용할 수 있도록 Python 또는 Node.JS 쉘 스크립트도 제공되고 있다. 이번 영어를 대상으로 한 세트이지만, 2018 년 상반기에는 점차 다국어로 출시할 예정이라고 한다.

현재 GitHub에서 공개되는 모질라의 딥스피치의 기술적인 특징은 모델은 5 개의 층을 가진 순환형 신경망(RNN; Recurrent Neural Network)을 이용한 기계 학습을 통해 음성 데이터에서 문자·텍스트를 추출, 각각의 음성 데이터와 문자의 대응을 높여 리브리스피치 코퍼스(LibriSpeech Corpus)를 이용한 검증 오류율 6.5 %와 정밀도를 높였다.

최창현 기자 다른기사 보기