Moshi: a speech-text foundation model for real-time dialogue

Rating

5 - Excellent

Authors

Kyutai

Date

2024

Review Status

In Progress

Review Date

2026/04/03 09:32

Key Findings

Venue

Field

Full-duplex

SpeechLLM

Audio Codec

URL

https://arxiv.org/pdf/2410.00037

Paper Library

Review Type

TL;DR

•

The first real-time full-duplex spoken LLM(7B)

•

Inner Monologue

•

Mimi codec

•

low latency(200ms)

Summary

•

Background and Motivation

◦

Cascade 구조(STT-LLM-TTS)의 한계로 인한 Full-duplex 필요성

▪

분리된 모델로 인한 정보의 손실, 중첩되는 latency

▪

위 한계로 인해 real conversation에 가깝도록 만들기에 구조적인 문제가 발생함

•

VAD를 이용한 speaker turn에 의존

▪

overlapping speech, interruptions까지 고려한 새로운 구조 제안

•

Method

◦

Helium, a 7B-parameter text LLM

▪

LLM으로써 특별할 것은 없고, 이미 유명한 구조 채택 및 자체 훈련한 모델. text pretraining한 후에 S2S로 훈련 목적.

▪

Llama2  Gemma1 수준의 성능.

◦

Mimi, a neural audio codec

▪

12.5Hz frame rate

▪

RVQ

▪

첫번째: semantic codebook

▪

2-Q(8): acoustic codebook

▪

streaming을 위해 causal 구조

▪

loss는 GAN-based vocoder 와 거의 같음.

◦

Multi-stream Modeling

▪

2-speaker conversation으로 확장 (moshi / user)

◦

Inner Monologue

▪

linguistic quality를 높이기 위한 장치로 text token 활용

▪

user stream에서는 사용하지 않음.

▪

Aligning text and audio tokens

•

codec이 12.5Hz 이기 때문에, text token을 timing에 맞게 같이 추정하려면 align이 필요하다.

•

저자들은 Whisper word-level timestamp를 활용하였음.

•

word-level의 시작 부근에 text token을 배치하고, 남은 부분은 PAD/EPAD 토큰 활용

◦

EPAD는 next token 직전에 PAD 대신 사용

•

(scalable approach는 아닌 것 같다. whisper timestamp는 그다지 정확하지도 않다.)

•

영어 기준으로 65%가 PAD 토큰이다.

◦

Review

•

full-duplex를 위한 하나의 모델 제안으로써 의미 있는 연구.

◦

전체 시스템을 위해서는 신경쓸 부분이 상당히 많은데, 그에 비례하는 논문의 길이

•

꼭 full-duplex가 필요할까?

◦

용도에 따라 다르겠으나, 인간과 음성으로 소통하는 task에는 필요하다.

◦

single speaker synthesis, multi-speaker dialogue(w/o user voice), multi-modal generation 등 컨텐츠 제작에는 굳이 필요하지 않아 보인다. 데이터 세팅 문제.

•

그게 모델 하나로 처리해야만 하는 문제인가?

◦

latency 문제는 시스템의 완성도가 올라갈수록 극복 가능해 보인다.

◦

하지만 발화 정보가 text로 변환되는 순간 많은 정보가 사라지는데, 여기에 자연스러운 대화를 위해 중요한 정보들이 있다.

◦

결국 입력 데이터(정보)가 결핍되어 발생하는 간극이므로, 이 정보를 추적할 수 있는 별도의 통로가 있다면, 모델이 하나가 아니어도 된다.

◦

다만 대화의 호흡을 이해한다는 문제는 복합적이고, 미묘한 문제이므로, 이를 단순화 시킨 어떤 특정한 task로 훈련시키기가 어렵다. 즉, 대화 자체를 통으로 훈련한 모델이 아니라면, 언제 리액션하고, 말 끝났는지 이해(silence라고 말이 끝난 것은 아니다)하고 하는 task를 별도로 훈련하기 어렵다는 것. 그런 label이 일일이 달린 데이터를 만드는 것보다, 대화를 통으로 이해시키는 것이 더 간단한 일이다.

◦

즉, 현재는 품질 면에서 봤을 때 모델 하나를 잘 훈련시키는 것보다 더 좋은 방법론은 떠오르지 않는다. (물론 적당한 수준에서 분리해서 만드는 것은 가능할 것)

•

단점은 없나?

◦

결국 하나의 모델이라면, LLM 품질이 관건이다.

◦

frontier LLM들은 320B을 넘어선다. 7B 모델들의 LLM 성능이 충분하지 않다.

◦

심지어 추론 모델들은 reasoning 과정들이 있고, LLM의 입출력 과정이 speech 출력과 일치되지 않는다.

◦

단순한 speech to speech 모델은 한계가 있고, 요즘(2026) 이 간극을 메우기 위한 형태로 연구가 진행되는듯 하다.

◦

비용에 제한이 없다면, 하나의 모델로 multi-modal understanding/generation 이 통합된 시스템이 주를 이루게 될테고, 현실적인 제약으로 인해 분리 된 적당한 시스템도 당분간은 필요한 회사들의 니즈가 있을 것 같다.