📥

Zero-shot 보이스 생성의 품질 = 프롬프트

Created
2026/03/16 14:06
Tags
Work
Tech
내가 일하면서 가장 어려웠던 부분은…
모델의 성능이 100이라면, 내가 기술과 사용법을 밀착 설명한 경우는 50점 수준으로 사용하고, 대부분의 유저는 30점 수준으로 사용한다는 것이다.
이는 그들의 잘못이 아니다. 아직 zero-shot TTS의 품질을 높이기 위한 세팅이 알잘딱깔센이 안되기 때문이다.
(참고로, 그렇기 때문에 zero-shot TTS 성능 평가도 반드시 세팅을 최대한 공정하게 해야 하는데 그렇지 않은 경우를 많이 봤다)
따라서, 110 성능의 모델을 30% 수준으로 써버리는 것보다 100 성능의 모델을 50% 수준으로 쓸 수 있도록 만드는 것이 TTS 제품 관점에서 매우 중요하다.
Zero-shot voice cloning의 성능은 곧 speaker prompt(reference audio/text)를 얼마나 잘 세팅하느냐에 달려있다.
여기서 질문
“어떻게 세팅하는 것이 [] 세팅하는 것이지?”
세일즈/제품 팀 동료들이 이를 잘 할 수 있도록 나는 내부 매뉴얼까지 작성하기도 했다.
연구자인 내가 인지하고 있는 구체적인 팁과 노하우를 모두 적어서 세미나까지 했다.
그럼에도 모델의 동작을 이해시키고 세팅할 수 있도록 돕는 것은 무척이나 힘든 일이었다.
사실 모델의 직접적인 개발자가 아닌데 이해하기는 매우 어렵다 (나도 Claude 성능의 최대치를 끌어내는 것이 어렵다)
결국 대충 작업 해도 원하는 결과물을 얻어가도록 연구자가 잘 해야 한다..
내가 권장하는 가이드를 몇가지만 소개해보자면 다음과 같다.
10초 이상의 오디오
짧은 문장의 경우 3-5초면 끝나며, 다수의 문장 조합 발화를 어떻게 하는지 봐야 문장 간 호흡/발음 규칙/프로소디 범위 등을 충분히 모델이 이해할 수 있다.
음색은 꽤 많이 담기기도 하지만, 10초 이상의 발화를 만들기에 필요한 정보가 충분하지는 않다.
만들고자 하는 화자가 훈련 데이터에 충분한 것이 아니라면, zero-shot setting에서는 그 화자에 대한 힌트가 reference audio 3초에 있을 뿐이고, 나머지 정보를 채우는 것은 모델의 확률적 추론이다.
따라서, 이를 충분히 모델이 이해해야만, 일관성 있게 만들 수 있다.
2024년도까지 많은 연구(VALL-E 등)들이 정답 음성의 일부를 추출하여 3초만 사용하는 케이스가 많았는데, 이는 academic contribution을 위해서이지, 제품 레벨의 품질을 위해서는 전혀 충분하지 않다.
음질이 깨끗한 오디오 (유사도가 sound effect 등과 밀접하지 않다면)
예전에는 깨끗한 음질이 곧 좋은 품질을 의미했지만, 지금은 배경 사운드도 비슷한 것이 더 좋은 품질이다.
다만 대부분의 용도에서는 studio-quality 결과물을 원하고, 제품에서도 기본이므로 이를 권장한다.
가능한 최소한의 일관성이 있는 발화로 조합해서 구성
화내는 감정 발화와 슬퍼하는 감정 발화를 같이 주면, 모델은 어느 방향으로 생성해야할지 모른다.
원하는 결과물과 유사한 레퍼런스
일상 대화의 자연스러운 발화를 원하는데, 아나운서 발화로 구성하면, 전혀 원하지 않는 결과물이 생성된다.
그러면 왜 알잘딱깔센으로 세팅하는 것이 어려운가?
고객의 요구사항이 매우 다양하다는 것이 주요 원인 중의 하나이다.
누구는 음질이 좋은 것을 원하고, 덜 좋은 것을 원하고, 부자연스러운 것을 원하고…
예를 들어, 고객센터 CS 보이스 혹은 AI assistant 서비스를 한다고 하면,
이에 적합한 훈련 데이터를 구축해서 그런 위주로 세팅 하면 된다.
하지만… 고객으로 게임, 뉴스, 영화, 애니, AI 캐릭터, CS, 오디오북 등 모두를 고려해야 한다면..
웬만큼은 다 커버하도록 일반화가 가능한 제로샷 품질을 높이는 방향으로 하게 된다.
다만, 최근 Multi-modal representation의 고도화 및 LLM 성능의 고도화가 진행되면서,
앞으로는 LLM과 대화하면서 원하는 결과물을 얻어가도록 진행될 것으로 기대된다