TL;DR
•
The first real-time full-duplex spoken LLM(7B)
•
Inner Monologue
•
Mimi codec
•
low latency(200ms)
Summary
•
Background and Motivation
◦
Cascade 구조(STT-LLM-TTS)의 한계로 인한 Full-duplex 필요성
▪
분리된 모델로 인한 정보의 손실, 중첩되는 latency
▪
위 한계로 인해 real conversation에 가깝도록 만들기에 구조적인 문제가 발생함
•
VAD를 이용한 speaker turn에 의존
▪
overlapping speech, interruptions까지 고려한 새로운 구조 제안
•
Method
◦
Helium, a 7B-parameter text LLM
▪
LLM으로써 특별할 것은 없고, 이미 유명한 구조 채택 및 자체 훈련한 모델. text pretraining한 후에 S2S로 훈련 목적.
▪
Llama2
Gemma1 수준의 성능.
◦
Mimi, a neural audio codec
▪
12.5Hz frame rate
▪
RVQ
▪
첫번째: semantic codebook
▪
2-Q(8): acoustic codebook
▪
streaming을 위해 causal 구조
▪
loss는 GAN-based vocoder 와 거의 같음.
◦
Multi-stream Modeling
▪
2-speaker conversation으로 확장 (moshi / user)
◦
Inner Monologue
▪
linguistic quality를 높이기 위한 장치로 text token 활용
▪
user stream에서는 사용하지 않음.
▪
Aligning text and audio tokens
•
codec이 12.5Hz 이기 때문에, text token을 timing에 맞게 같이 추정하려면 align이 필요하다.
•
저자들은 Whisper word-level timestamp를 활용하였음.
•
word-level의 시작 부근에 text token을 배치하고, 남은 부분은 PAD/EPAD 토큰 활용
◦
EPAD는 next token 직전에 PAD 대신 사용
•
(scalable approach는 아닌 것 같다. whisper timestamp는 그다지 정확하지도 않다.)
•
영어 기준으로 65%가 PAD 토큰이다.
◦
Review
•
full-duplex를 위한 하나의 모델 제안으로써 의미 있는 연구.
◦
전체 시스템을 위해서는 신경쓸 부분이 상당히 많은데, 그에 비례하는 논문의 길이
•
꼭 full-duplex가 필요할까?
◦
용도에 따라 다르겠으나, 인간과 음성으로 소통하는 task에는 필요하다.
◦
single speaker synthesis, multi-speaker dialogue(w/o user voice), multi-modal generation 등 컨텐츠 제작에는 굳이 필요하지 않아 보인다. 데이터 세팅 문제.
•
그게 모델 하나로 처리해야만 하는 문제인가?
◦
latency 문제는 시스템의 완성도가 올라갈수록 극복 가능해 보인다.
◦
하지만 발화 정보가 text로 변환되는 순간 많은 정보가 사라지는데, 여기에 자연스러운 대화를 위해 중요한 정보들이 있다.
◦
결국 입력 데이터(정보)가 결핍되어 발생하는 간극이므로, 이 정보를 추적할 수 있는 별도의 통로가 있다면, 모델이 하나가 아니어도 된다.
◦
다만 대화의 호흡을 이해한다는 문제는 복합적이고, 미묘한 문제이므로, 이를 단순화 시킨 어떤 특정한 task로 훈련시키기가 어렵다. 즉, 대화 자체를 통으로 훈련한 모델이 아니라면, 언제 리액션하고, 말 끝났는지 이해(silence라고 말이 끝난 것은 아니다)하고 하는 task를 별도로 훈련하기 어렵다는 것. 그런 label이 일일이 달린 데이터를 만드는 것보다, 대화를 통으로 이해시키는 것이 더 간단한 일이다.
◦
즉, 현재는 품질 면에서 봤을 때 모델 하나를 잘 훈련시키는 것보다 더 좋은 방법론은 떠오르지 않는다. (물론 적당한 수준에서 분리해서 만드는 것은 가능할 것)
•
단점은 없나?
◦
결국 하나의 모델이라면, LLM 품질이 관건이다.
◦
frontier LLM들은 320B을 넘어선다. 7B 모델들의 LLM 성능이 충분하지 않다.
◦
심지어 추론 모델들은 reasoning 과정들이 있고, LLM의 입출력 과정이 speech 출력과 일치되지 않는다.
◦
단순한 speech to speech 모델은 한계가 있고, 요즘(2026) 이 간극을 메우기 위한 형태로 연구가 진행되는듯 하다.
◦
비용에 제한이 없다면, 하나의 모델로 multi-modal understanding/generation 이 통합된 시스템이 주를 이루게 될테고, 현실적인 제약으로 인해 분리 된 적당한 시스템도 당분간은 필요한 회사들의 니즈가 있을 것 같다.


