Qwen3-TTS

Rating
4 - Good
Authors
Date
2026
Review Status
Todo
Review Date
2026/03/13 09:29
Key Findings
Venue
Field
URL
Paper Library
R
Review Type

Summary

여러 관점에서 다른 형태의 tokenizer에 대한 영향 분석
Method
Qwen3 LM을 backbone으로 두가지 코덱에 대해 실험.
Qwen3-TTS-25Hz
single-codebook(VQ)
2-stage training framework
stage 1: Qwen2-Audio ASR task 훈련
stage 2: Mel reconstruction task 훈련
Streaming Detokenizer
chunk-wise DiT with Flow Matching
code → DiT → mel → modified BigVGAN → waveform
Codec을 직접적으로 사용하는 지금에 와서는 좀 생소한 방법.
2-stage가 아닌 jointly training하면 linguistic representation을 갖도록 하면서 acoustic 도 훈련 가능함.
Tortoise 방식에서 Streaming을 가능하게 하는 형태인듯
Qwen3-TTS-12Hz
Mimi-based
RVQ, hierarchical prediction scheme
WavLM으로 semantic codebook을 guide 한다.
Result
실험을 꽤 많이했다. seed-tts-eval 부터 multilingual, cross-lingual, instruction, long-form 까지.
TTS의 범위가 점점 더 커진다는 생각이 든다.
Zero-shot speech generation
12Hz tokenizer를 사용한 모델의 안정성이 더 높게 나타났다.
다만 직접 seed-tts-eval을 해봤을 때, 표현력과 오디오 생성 기준에 따라 test-en 기준 2.0 이하이면 실제 에러에서는 차이가 없기도 하다.
accent 표현으로 인해 ASR에 영향을 줌.
seed-tts-eval은 ASR로 whisper-v3를 사용하는데, 다양한 케이스의 hallucination을 일부 포함한다.
WER 2.0 아래에서 대부분의 케이스가 숫자 관련 text normalization인 경우 다수
다만 similarity가 높지도 표현력이 크지도 않은 모델에 한해서는 실제로 차이가 발생함.
Long speech generation
AR 방법이 긴 길이에서 약한 모습을 보이는 것은 익히 알려져 있다.
이 연구에서는 무려 200-2000 단어 길이의 문장들로 테스트 하였음. (영어 기준 30단어가 10초 정도이므로 매우 길다)
흥미로운 점은 VoxCPM의 경우 seed-tts-eval에서 VibeVoice보다 안정적이고, 낮은 WER을 보였는데, 긴 문장에서 급격하게 품질이 떨어졌다. (실제로 사용해봤을 때에도 repeat skip 거의 없었다)
VibeVoice는 애초에 긴 문장 + multi-speaker dialogue을 contribution으로 나온 연구이다.
chunking 했다면, VoxCPM의 경우 품질이 훨씬 좋게 나왔을 것. (제품에서는 저렇게 호출할 리가 없다.)
HiggsAudioV2는 원래도 안정성이 떨어지는 편인데, 2.5에서 많이 개선되었음.
Review
강력한 backbone들과 방법론으로 고도화했지만.. 실질적인 품질과 efficiency 측면에서 여전히 부족해 보인다.
다만, 작년에만 해도 LLM-based 접근 방법이 speaker consistency가 낮고, content fidelity(consistency)가 매우 불안정했던 것을 고려하면, 이제 일정 분기점은 넘은 느낌.
다음 버전(Qwen4-Audio)부터는 기존의 NAR 방법론과는 확실한 gap을 만드는 개선들이 생겨날 것으로 기대되는 면이 있다.