Summary
여러 관점에서 다른 형태의 tokenizer에 대한 영향 분석
•
Method
◦
Qwen3 LM을 backbone으로 두가지 코덱에 대해 실험.
◦
Qwen3-TTS-25Hz
▪
single-codebook(VQ)
▪
2-stage training framework
•
stage 1: Qwen2-Audio ASR task 훈련
•
stage 2: Mel reconstruction task 훈련
▪
Streaming Detokenizer
•
chunk-wise DiT with Flow Matching
•
code → DiT → mel → modified BigVGAN → waveform
Codec을 직접적으로 사용하는 지금에 와서는 좀 생소한 방법.
2-stage가 아닌 jointly training하면 linguistic representation을 갖도록 하면서 acoustic 도 훈련 가능함.
Tortoise 방식에서 Streaming을 가능하게 하는 형태인듯
◦
Qwen3-TTS-12Hz
▪
Mimi-based
▪
RVQ, hierarchical prediction scheme
▪
WavLM으로 semantic codebook을 guide 한다.
▪
•
Result
실험을 꽤 많이했다. seed-tts-eval 부터 multilingual, cross-lingual, instruction, long-form 까지.
TTS의 범위가 점점 더 커진다는 생각이 든다.
◦
Zero-shot speech generation
▪
12Hz tokenizer를 사용한 모델의 안정성이 더 높게 나타났다.
•
다만 직접 seed-tts-eval을 해봤을 때, 표현력과 오디오 생성 기준에 따라 test-en 기준 2.0 이하이면 실제 에러에서는 차이가 없기도 하다.
•
accent 표현으로 인해 ASR에 영향을 줌.
•
seed-tts-eval은 ASR로 whisper-v3를 사용하는데, 다양한 케이스의 hallucination을 일부 포함한다.
•
WER 2.0 아래에서 대부분의 케이스가 숫자 관련 text normalization인 경우 다수
•
다만 similarity가 높지도 표현력이 크지도 않은 모델에 한해서는 실제로 차이가 발생함.
◦
Long speech generation
▪
AR 방법이 긴 길이에서 약한 모습을 보이는 것은 익히 알려져 있다.
▪
이 연구에서는 무려 200-2000 단어 길이의 문장들로 테스트 하였음. (영어 기준 30단어가 10초 정도이므로 매우 길다)
▪
흥미로운 점은 VoxCPM의 경우 seed-tts-eval에서 VibeVoice보다 안정적이고, 낮은 WER을 보였는데, 긴 문장에서 급격하게 품질이 떨어졌다. (실제로 사용해봤을 때에도 repeat skip 거의 없었다)
•
VibeVoice는 애초에 긴 문장 + multi-speaker dialogue을 contribution으로 나온 연구이다.
•
chunking 했다면, VoxCPM의 경우 품질이 훨씬 좋게 나왔을 것. (제품에서는 저렇게 호출할 리가 없다.)
•
HiggsAudioV2는 원래도 안정성이 떨어지는 편인데, 2.5에서 많이 개선되었음.
•
Review
◦
강력한 backbone들과 방법론으로 고도화했지만.. 실질적인 품질과 efficiency 측면에서 여전히 부족해 보인다.
◦
다만, 작년에만 해도 LLM-based 접근 방법이 speaker consistency가 낮고, content fidelity(consistency)가 매우 불안정했던 것을 고려하면, 이제 일정 분기점은 넘은 느낌.
◦
다음 버전(Qwen4-Audio)부터는 기존의 NAR 방법론과는 확실한 gap을 만드는 개선들이 생겨날 것으로 기대되는 면이 있다.



