🫠

고객이 바라는 AI Voice는 생각보다도 다양하다

Created
2026/03/13 07:43
Tags
Work
좋은 TTS를 생각해보면, 좋은 모델로 자연스럽고 감정도 잘 표현하고 음질도 깨끗하고… 여러가지를 생각해볼 수 있다.
그러나 이는 유저마다 그 요구사항이 매우 다르다. 때로는 일반적인 academic 에서의 좋은 TTS의 기준에서 벗어나기도 한다.
예를 들면, 다음과 같다.
20세기 중반 독립운동가의 목소리 복원
그 때 그 감성의 음질(옛날 라디오 음질)과 함께, 그 당시의 표준어 말투
이는 지금의 기준에서의 자연스러움, 깨끗한 음질과는 배척되며 더 어려운 데이터이다
고인이 되신 어느 교수님의 목소리 복원
강한 사투리와 노인 특유의 음색 말투, 깨끗한 음질
마찬가지로 표준적인 자연스러움에서는 멀리 있다. 그리고 깨끗한 음질
기합소리에 어울리는 캐릭터 보이스 디자인
1초짜리 기합소리 같은 비언어발화(e.g., 하! 얍! 우워어어! 윽! 크으..) 오디오 몇 개만으로 일관성 있게 게임 캐릭터의 보이스 디자인
일반적으로 게임 캐릭터 보이스는 표현력이 높은 감정/연기/음색 + 스튜디오 음질을 만족해야한다.
관련 프로젝트들의 요구사항을 대할 때마다 매우 당황스럽고 어려웠으나, 도전적이고 재밌긴 했다.
보통 이 정도 난이도의 프로젝트에서는 데이터부터 재구성해야한다. (대충 험난한 길이라는 뜻)
심지어는 저기에서 끝이 아니라, 저 요구사항을 만족한 채로, 추가적인 요구사항이 빗발친다.
자연스럽고, 감정이 바뀌고, 발음이 좀 더 명료했으면 좋겠고, 실제보다 과장됐으면 좋겠고 등등…
이러한 작업들은 보통 스케일-업을 어렵게 하지만(하나하나 대응하다보면 시간이 매우 많이 소요된다), 중장기적인 연구를 어떻게 해나가면 좋겠구나 싶은 인사이트를 얻을 수는 있다.