Moshi: a speech-text foundation model for real-time dialogue

Rating
5 - Excellent
Authors
Kyutai
Date
2024
Review Status
In Progress
Review Date
2026/04/03 09:32
Key Findings
Venue
Field
Full-duplex
SpeechLLM
Audio Codec
Paper Library
R
Review Type

TL;DR

The first real-time full-duplex spoken LLM(7B)
Inner Monologue
Mimi codec
low latency(200ms)

Summary

Background and Motivation
Cascade 구조(STT-LLM-TTS)의 한계로 인한 Full-duplex 필요성
분리된 모델로 인한 정보의 손실, 중첩되는 latency
위 한계로 인해 real conversation에 가깝도록 만들기에 구조적인 문제가 발생함
VAD를 이용한 speaker turn에 의존
overlapping speech, interruptions까지 고려한 새로운 구조 제안
Method
Helium, a 7B-parameter text LLM
LLM으로써 특별할 것은 없고, 이미 유명한 구조 채택 및 자체 훈련한 모델. text pretraining한 후에 S2S로 훈련 목적.
Llama2 Gemma1 수준의 성능.
Mimi, a neural audio codec
12.5Hz frame rate
RVQ
첫번째: semantic codebook
2-Q(8): acoustic codebook
streaming을 위해 causal 구조
loss는 GAN-based vocoder 와 거의 같음.
Multi-stream Modeling
2-speaker conversation으로 확장 (moshi / user)
Inner Monologue
linguistic quality를 높이기 위한 장치로 text token 활용
user stream에서는 사용하지 않음.
Aligning text and audio tokens
codec이 12.5Hz 이기 때문에, text token을 timing에 맞게 같이 추정하려면 align이 필요하다.
저자들은 Whisper word-level timestamp를 활용하였음.
word-level의 시작 부근에 text token을 배치하고, 남은 부분은 PAD/EPAD 토큰 활용
EPAD는 next token 직전에 PAD 대신 사용
(scalable approach는 아닌 것 같다. whisper timestamp는 그다지 정확하지도 않다.)
영어 기준으로 65%가 PAD 토큰이다.

Review

full-duplex를 위한 하나의 모델 제안으로써 의미 있는 연구.
전체 시스템을 위해서는 신경쓸 부분이 상당히 많은데, 그에 비례하는 논문의 길이
꼭 full-duplex가 필요할까?
용도에 따라 다르겠으나, 인간과 음성으로 소통하는 task에는 필요하다.
single speaker synthesis, multi-speaker dialogue(w/o user voice), multi-modal generation 등 컨텐츠 제작에는 굳이 필요하지 않아 보인다. 데이터 세팅 문제.
그게 모델 하나로 처리해야만 하는 문제인가?
latency 문제는 시스템의 완성도가 올라갈수록 극복 가능해 보인다.
하지만 발화 정보가 text로 변환되는 순간 많은 정보가 사라지는데, 여기에 자연스러운 대화를 위해 중요한 정보들이 있다.
결국 입력 데이터(정보)가 결핍되어 발생하는 간극이므로, 이 정보를 추적할 수 있는 별도의 통로가 있다면, 모델이 하나가 아니어도 된다.
다만 대화의 호흡을 이해한다는 문제는 복합적이고, 미묘한 문제이므로, 이를 단순화 시킨 어떤 특정한 task로 훈련시키기가 어렵다. 즉, 대화 자체를 통으로 훈련한 모델이 아니라면, 언제 리액션하고, 말 끝났는지 이해(silence라고 말이 끝난 것은 아니다)하고 하는 task를 별도로 훈련하기 어렵다는 것. 그런 label이 일일이 달린 데이터를 만드는 것보다, 대화를 통으로 이해시키는 것이 더 간단한 일이다.
즉, 현재는 품질 면에서 봤을 때 모델 하나를 잘 훈련시키는 것보다 더 좋은 방법론은 떠오르지 않는다. (물론 적당한 수준에서 분리해서 만드는 것은 가능할 것)
단점은 없나?
결국 하나의 모델이라면, LLM 품질이 관건이다.
frontier LLM들은 320B을 넘어선다. 7B 모델들의 LLM 성능이 충분하지 않다.
심지어 추론 모델들은 reasoning 과정들이 있고, LLM의 입출력 과정이 speech 출력과 일치되지 않는다.
단순한 speech to speech 모델은 한계가 있고, 요즘(2026) 이 간극을 메우기 위한 형태로 연구가 진행되는듯 하다.
비용에 제한이 없다면, 하나의 모델로 multi-modal understanding/generation 이 통합된 시스템이 주를 이루게 될테고, 현실적인 제약으로 인해 분리 된 적당한 시스템도 당분간은 필요한 회사들의 니즈가 있을 것 같다.