엔씨, ‘인터스피치2020’ 참석…음성합성 기술 ‘VocGAN’ 발표
엔씨, ‘인터스피치2020’ 참석…음성합성 기술 ‘VocGAN’ 발표
  • 조현선 기자
  • 승인 2020.09.23 15:51
  • 댓글 0
이 기사를 공유합니다

AI센터 음성합성 기술, 합성음 품질 측면에서 ‘글로벌 수준’ 평가
게임 개발·영상 내레이션 등 다양한 영역 활용 전망
엔씨소프트가 자체 개발한 뉴럴 보코더(Neural Vocoder) 기술 ‘VocGAN’ (사진=엔씨소프트)

[뉴시안=조현선 기자]엔씨소프트는 자체 개발한 뉴럴 보코더(Neural Vocoder) 기술 ‘VocGAN’을 오는 10월 열리는 ‘인터스피치 2020’에서 정식 발표한다고 23일 밝혔다. 

VocGAN은 엔씨 AI센터 산하 Speech AI Lab 음성합성팀에서 자체개발한 기술이다. 녹음 음성과 실제 음성의 구분이 어려운 수준의 완벽한 음질, 빠른 속도와 가벼운 무게가 특징이다.

엔씨는 게임 개발, 콘텐츠 제작 등을 지원하기 위해 텍스트를 기반으로 다양한 목소리를 만들어내는 음성합성 기술을 연구하고 있다.

특히 음성합성팀은 합성음의 음질, 자연스러고 안정적인 발화, 소량의 데이터로 특정인 목소리의 효과적인 표현, 실용화를 위한 속도와 모델 사이즈 개선 등을 주의 깊게 연구하고 있다. 그중에서도 가장 중점을 두는 것이 합성음의 음질을 개선하는 것이다. 

합성음의 음질을 결정하는 데에는 두 가지 요소가 중요하다. 첫 번째는 주어진 입력 문장으로 주파수 영역의 간소화된 벡터들의 열인 멜 스펙트로그램(Mel-Spectrogram)을 생성하는 능력과, 두 번째는 멜스펙트로그램으로부터 음성의 파형을 선명하게 합성하는 능력이다. 이중 두 번째 이슈를 다루는 기술이 뉴럴 보코더이다. 

VocGAN은 음성합성에서 주요한 이슈인 뉴럴 보코더를 다루는 만큼 국내외 연구자들 사이에서 높은 관심을 받고 있다.

이외에도 엔씨는 다양한 영역에서 음성합성 기술을 이용하고 있다. 

먼저 '블레이드 앤 소울' 프론티어 월드 튜토리얼 영상 '안내서'의 내레이션이 모두 합성음으로 제작됐다. 성우가 대사를 익히고 녹음해 검수하는 과정을 생략해 제작 시간이 크게 단축됐다. 게임 개발 단계에서도 캐릭터 대사 내용과 분량을 검수하는 등 최적화 테스트 과정에도 이용된다.

또 음성 데이터 축적부터 딥러닝 모델 학습, 합성음 생성 테스트와 최종 서비스까지의 일련의 과정들을 모두 클라우드에 자동화하고 있다.

한편 인터스피치는 음성인식·합성 분야에서 세계 최고의 권위를 가진 국제학회이다. 인터스피치 2020은 오는 10월 중국 상하이에서 개최될 예정이다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.