좋은 TTS를 생각해보면, 좋은 모델로 자연스럽고 감정도 잘 표현하고 음질도 깨끗하고… 여러가지를 생각해볼 수 있다.
그러나 이는 유저마다 그 요구사항이 매우 다르다. 때로는 일반적인 academic 에서의 좋은 TTS의 기준에서 벗어나기도 한다.
예를 들면, 다음과 같다.
•
20세기 중반 독립운동가의 목소리 복원
◦
그 때 그 감성의 음질(옛날 라디오 음질)과 함께, 그 당시의 표준어 말투
◦
이는 지금의 기준에서의 자연스러움, 깨끗한 음질과는 배척되며 더 어려운 데이터이다
•
고인이 되신 어느 교수님의 목소리 복원
◦
강한 사투리와 노인 특유의 음색 말투, 깨끗한 음질
◦
마찬가지로 표준적인 자연스러움에서는 멀리 있다. 그리고 깨끗한 음질
•
기합소리에 어울리는 캐릭터 보이스 디자인
◦
1초짜리 기합소리 같은 비언어발화(e.g., 하! 얍! 우워어어! 윽! 크으..) 오디오 몇 개만으로 일관성 있게 게임 캐릭터의 보이스 디자인
◦
일반적으로 게임 캐릭터 보이스는 표현력이 높은 감정/연기/음색 + 스튜디오 음질을 만족해야한다.
관련 프로젝트들의 요구사항을 대할 때마다 매우 당황스럽고 어려웠으나, 도전적이고 재밌긴 했다.
보통 이 정도 난이도의 프로젝트에서는 데이터부터 재구성해야한다. (대충 험난한 길이라는 뜻)
심지어는 저기에서 끝이 아니라, 저 요구사항을 만족한 채로, 추가적인 요구사항이 빗발친다.
자연스럽고, 감정이 바뀌고, 발음이 좀 더 명료했으면 좋겠고, 실제보다 과장됐으면 좋겠고 등등…
이러한 작업들은 보통 스케일-업을 어렵게 하지만(하나하나 대응하다보면 시간이 매우 많이 소요된다), 중장기적인 연구를 어떻게 해나가면 좋겠구나 싶은 인사이트를 얻을 수는 있다.