인간 귀에 최적화된 소리 찾아내는 딥러닝 기술
인간 귀에 최적화된 소리 찾아내는 딥러닝 기술
  • 권현주 기자
  • 승인 2019.03.28 14:05
  • 댓글 0
이 기사를 공유합니다

KETI, 실시간 오디오 음원 분석 및 자동 음량 제어 기술 개발 - - 보다 선명하고 편안한 음질로 영화, 드라마, 스포츠 등 다양한 디지털 방송 프로그램 / VOD 콘텐츠 감상할 수 있어
인간 귀에 최적화된 소리 찾아내는 딥러닝 기술(이미지:본지제작)

2016년 5월부터 방송법 개정에 의거, 방송프로그램 평균음량이 LKFS(Loudness, K-weighted, relative to Full Scale)기준 (-)24dB로 통일됐다. 압축신호를 송출하는 디지털 방송 특성상, 과거 아날로그 방송과 달리 방송국 단에서의 송출신호 조정을 통한 일괄음량조절이 어렵기 때문이다.

법 개정으로 채널 간, 프로그램 간 평균음량차이는 사라졌지만, 문제는 콘텐츠 내에서의 들쭉날쭉한 음량편차에 대한 기준이 없어 육성음량이 배경음악, 음향효과 등 배경음량 대비 작아 대사전달이 부정확하거나, 음량 급등락 등으로 편안한 시청이 어렵다.

이에 전자부품연구원(KETI, 원장 김영삼)이 인공지능으로 오디오 음원을 분석해 보다 명확한 음성전달은 물론, 배경음악, 음향, 대사 등 구성음 간 최적화된 음량구성을 실시간 제공하는 음량 자동제어기술을 개발했다. 개발된 ‘AI기반 오디오 음원분석 및 자동 음량 실시간 제어기술’은 딥러닝을 활용한 CNN기반 알고리즘으로 콘텐츠 내 소리를 400ms 단위로 육성, 묵음, 배경음, 혼합음 등의 클래스로 구분하고, 클래스에 따라 맞춤형으로 음량을 제어한다.

오디오 콘텐츠 변환 솔루션 시제품 시연 모습(사진:KETI)
오디오 콘텐츠 변환 솔루션 시연(사진:KETI)

단위구간별 소리들은 직전 단위구간과의 연속성 차원에서 조절된 음량이득(원음의 음량을 의도적으로 증폭 또는 감쇄시킨 정도), 이전 동일 클래스와의 연계성 차원에서 조절된 음량이득 및 평균음량을 (-)24dB로 맞추기 위한 육성, 배경음, 혼합음 등 클래스별 조절된 음량이득 등을 고려해 실시간으로 제어, 출력된다.

또한 웅얼거리는 듯 들릴 수 있는 대사음량은 키워 주고, 과도한 배경음향은 줄이는 등, 기존 콘텐츠의 음성 명료도를 개선하고, 급등락 하는 소리의 상대적 편차를 줄여 편안한 청취 환경을 제공하는 동시에 라이브방송 시에도 평균음량 규정을 실시간으로 맞출 수 있는 장점이 있다.

KETI 지능형영상처리연구센터 김제우 수석은 “이번 기술개발로 100% 해외의존 중인 실시간 음량제어 방송장비의 국산화가 기대 된다.”면서 “디지털 방송뿐 아니라, 인터넷 개인방송, 소셜 미디어 등 퍼스널 미디어시장이 지속성장하고 있는 만큼, 향후 편안한 시청환경 구축에 KETI 기술이 활용될 것으로 기대한다.”고 밝혔다.

한편 이번 기술은 ‘방송통신산업기술개발사업’으로 지원된 ‘딥러닝기반 지능형 오디오 분석을 통한 오디오 콘텐츠 변환 솔루션 개발’ 과제로 개발됐다. 현재 주관기관인 네오컨버전스(주)로 기술이전 돼 사업화가 진행 중이다


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.