Qwen3-TTS

Rating

4 - Good

Authors

Alibaba

Date

2026

Review Status

Todo

Review Date

2026/04/03 09:08

Key Findings

Venue

Field

Audio Codec

TTS

SpeechLLM

URL

Paper Library

Review Type

Summary

여러 관점에서 다른 형태의 tokenizer에 대한 영향 분석

•

Method

◦

Qwen3 LM을 backbone으로 두가지 코덱에 대해 실험.

◦

Qwen3-TTS-25Hz

▪

single-codebook(VQ)

▪

2-stage training framework

•

stage 1: Qwen2-Audio ASR task 훈련

•

stage 2: Mel reconstruction task 훈련

▪

Streaming Detokenizer

•

chunk-wise DiT with Flow Matching

•

code → DiT → mel → modified BigVGAN → waveform

Codec을 직접적으로 사용하는 지금에 와서는 좀 생소한 방법.

2-stage가 아닌 jointly training하면 linguistic representation을 갖도록 하면서 acoustic 도 훈련 가능함.

Tortoise 방식에서 Streaming을 가능하게 하는 형태인듯

◦

Qwen3-TTS-12Hz

▪

Mimi-based

▪

RVQ, hierarchical prediction scheme

▪

WavLM으로 semantic codebook을 guide 한다.

▪

•

Result

실험을 꽤 많이했다. seed-tts-eval 부터 multilingual, cross-lingual, instruction, long-form 까지.

TTS의 범위가 점점 더 커진다는 생각이 든다.

◦

Zero-shot speech generation

▪

12Hz tokenizer를 사용한 모델의 안정성이 더 높게 나타났다.

•

다만 직접 seed-tts-eval을 해봤을 때, 표현력과 오디오 생성 기준에 따라 test-en 기준 2.0 이하이면 실제 에러에서는 차이가 없기도 하다.

•

accent 표현으로 인해 ASR에 영향을 줌.

•

seed-tts-eval은 ASR로 whisper-v3를 사용하는데, 다양한 케이스의 hallucination을 일부 포함한다.

•

WER 2.0 아래에서 대부분의 케이스가 숫자 관련 text normalization인 경우 다수

•

다만 similarity가 높지도 표현력이 크지도 않은 모델에 한해서는 실제로 차이가 발생함.

◦

Long speech generation

▪

AR 방법이 긴 길이에서 약한 모습을 보이는 것은 익히 알려져 있다.

▪

이 연구에서는 무려 200-2000 단어 길이의 문장들로 테스트 하였음. (영어 기준 30단어가 10초 정도이므로 매우 길다)

▪

흥미로운 점은 VoxCPM의 경우 seed-tts-eval에서 VibeVoice보다 안정적이고, 낮은 WER을 보였는데, 긴 문장에서 급격하게 품질이 떨어졌다. (실제로 사용해봤을 때에도 repeat skip 거의 없었다)

•

VibeVoice는 애초에 긴 문장 + multi-speaker dialogue을 contribution으로 나온 연구이다.

•

chunking 했다면, VoxCPM의 경우 품질이 훨씬 좋게 나왔을 것. (제품에서는 저렇게 호출할 리가 없다.)

•

HiggsAudioV2는 원래도 안정성이 떨어지는 편인데, 2.5에서 많이 개선되었음.

•

Review

◦

강력한 backbone들과 방법론으로 고도화했지만.. 실질적인 품질과 efficiency 측면에서 여전히 부족해 보인다.

◦

다만, 작년에만 해도 LLM-based 접근 방법이 speaker consistency가 낮고, content fidelity(consistency)가 매우 불안정했던 것을 고려하면, 이제 일정 분기점은 넘은 느낌.

◦

다음 버전(Qwen4-Audio)부터는 기존의 NAR 방법론과는 확실한 gap을 만드는 개선들이 생겨날 것으로 기대되는 면이 있다.