共计 3708 个字符,预计需要花费 10 分钟才能阅读完成。
语音大模型(Speech Foundation Models)(截至 2025 年 10 月),从语音识别(ASR)、语音合成(TTS)到语音理解、语音翻译、语音情感分析等任务,开源社区已涌现出多个高性能、可商用的语音基础模型。本文系统梳理当前主流 开源语音大模型,涵盖其架构、训练方法、能力边界与部署实践。
一、语音大模型的分类与演进
1.1 传统 vs. 大模型范式
| 类型 | 特点 | 代表 |
|---|---|---|
| 传统语音模型 | 模块化(声学模型 + 语言模型)、依赖对齐、数据需求小 | Kaldi, DeepSpeech |
| 端到端语音大模型 | 统一架构、自监督预训练、支持多任务、零样本泛化 | Whisper, Paraformer, SpeechGPT, VALL-E |
1.2 核心任务覆盖
- ASR(自动语音识别):语音 → 文本
- TTS(文本到语音):文本 → 语音
- S2ST(语音到语音翻译):语音 → 目标语种语音
- 语音理解:情感、语义、说话人识别
- 语音生成:克隆、风格迁移、多语言合成
二、主流开源语音大模型详解
2.1 Whisper(OpenAI, 2022)
地位:语音大模型的“ImageNet 时刻”
- 架构:Encoder-Decoder Transformer
- 训练数据:68 万小时多语言、多任务语音(含噪声、音乐、多人对话)
- 关键特性:
- 支持 99 种语言 ASR
- 统一处理:转录、翻译(→英语)、语言识别
- 鲁棒性强(对口音、背景噪声、专业术语)
- 模型规模:
- tiny(39M)、base(74M)、small(244M)、medium(769M)、large(1.5B)
- 开源:✅ 完全开源(GitHub)
- 推理示例:
import whisper
model = whisper.load_model("large")
result = model.transcribe("audio.mp3", language="zh")
print(result["text"])
- 局限:
- 仅支持 ASR/ 翻译,无 TTS 能力
- 中文标点恢复较弱
- 推理速度慢(large 模型需 GPU)
2.2 Paraformer(达摩院, 2022–2024)
中文语音识别标杆
- 架构:非自回归 Transformer(NAR),引入 Sanm 模型 + CTC + LM 融合
- 优势:
- 实时性高:比 Whisper 快 5–10 倍
- 中文优化:标点、数字、专有名词准确率高
- 支持 动态 batch 推理
- 开源:✅(ModelScope)
- 模型系列:
paraformer-large:通用中文 ASRparaformer-realtime:流式识别paraformer-en:英文版- 部署:支持 ONNX、TensorRT,适合工业部署
2.3 SenseVoice(FunAudioLLM, 2024)
多语言、多任务语音理解模型
- 机构:阿里 & 清华
- 能力:
- ASR(50+ 语言)
- 情感识别(高兴、愤怒、悲伤等)
- 说话人角色识别(客服 / 用户)
- 语言 / 方言识别
- 架构:基于 Whisper 改进,引入多任务头
- 开源:✅(GitHub)
- 亮点:
- 在中文情感识别上超越商业 API
- 支持 零样本跨语言情感分析
2.4 VALL-E / VALL-E X(微软, 2023–2024)
零样本语音克隆 TTS 模型
- 核心能力:仅需 3 秒参考语音,即可克隆音色并合成任意文本
- 架构:
- 使用 离散声学 token(类似语言模型)
- 基于 EnCodec 编码器 + Transformer 解码器
- 开源状态:
- VALL-E:仅论文,未开源权重
- VALL-E X(多语言扩展):社区复现版开源(如 VALL-E-X)
- 社区复现特点:
- 支持中 / 英 / 日 / 韩等语言
- 可微调音色
- 生成质量接近真人,但偶有 artifacts
2.5 ChatTTS(2024)
为对话场景优化的开源 TTS 模型
- 目标 :生成 自然、富有韵律的对话式语音(如 LLM 语音输出)
- 特点:
- 支持 中英文混合
- 可控制 停顿、语调、笑声(如
[laugh]、[breath]) - 音色多样(预训练 10+ 音色)
- 开源:✅(GitHub)
- 架构:Diffusion + Transformer
- 应用场景:AI 助手、有声书、虚拟主播
2.6 Moshi(Kyutai, 2024)
首个开源的实时语音交互大模型
- 架构 : 流式 Transformer,支持 语音 ↔ 文本双向实时交互
- 能力:
- 实时 ASR + TTS
- 低延迟(<200ms)
- 支持打断、连续对话
- 开源:✅(GitHub)
- 意义:迈向“语音版 LLM”,实现真正语音对话代理
2.7 SpeechGPT / AudioGPT(学术项目)
语音多模态大模型探索
- SpeechGPT(2023):
- 基于 LLM + Whisper + TTS 模块拼接
- 支持语音指令 → 语音回答
- 开源:部分代码(GitHub)
- AudioGPT(2023):
- 使用 LLM 协调多个语音专家模型
- 支持语音分析、生成、编辑
- 更像“语音操作系统”
⚠️ 注:此类模型多为 系统集成,非端到端统一架构。
三、语音大模型核心技术原理
3.1 自监督预训练(SSL)
- Wav2Vec 2.0 / HuBERT(Meta):
- 通过预测 masked audio units 学习表征
- HuBERT 使用聚类伪标签,效果更优
- Whisper:虽未明确使用 SSL,但海量弱监督数据起到类似作用
3.2 离散语音表示(Discrete Speech Tokens)
- EnCodec(Meta):
- 将语音压缩为离散 token 序列
- 使语音可像文本一样被 Transformer 处理
- 是 VALL-E、Voicebox 等模型的基础
3.3 非自回归生成(NAR)
- Paraformer、FastSpeech:
- 一次性预测全部输出,大幅提升 TTS/ASR 速度
- 通过 CTC 或 duration predictor 对齐
3.4 流式处理(Streaming)
- Chunk-based attention:限制注意力范围
- Unidirectional encoder:仅使用历史信息
- Moshi、Paraformer-realtime 已实现工业级流式 ASR/TTS
四、开源模型性能对比(2025)
| 模型 | 任务 | 语言 | 参数量 | 开源 | 中文优化 | 实时性 |
|---|---|---|---|---|---|---|
| Whisper-large-v3 | ASR/ 翻译 | 99+ | 1.5B | ✅ | ⚠️ 一般 | ❌ 慢 |
| Paraformer-large | ASR | 中 / 英 | ~300M | ✅ | ✅ 强 | ✅ 快 |
| SenseVoice | ASR+ 情感 | 50+ | ~1B | ✅ | ✅ 强 | ✅ |
| VALL-E X(复现) | TTS(克隆) | 多语 | ~1B | ✅(社区) | ✅ | ⚠️ 中 |
| ChatTTS | TTS(对话) | 中 / 英 | ~500M | ✅ | ✅ 强 | ✅ |
| Moshi | ASR+TTS | 英 / 法 | ~700M | ✅ | ❌ | ✅✅ 极快 |
五、部署与微调实践建议
5.1 推理部署
- Whisper:使用
faster-whisper(基于 CTranslate2)提速 4–10 倍 - Paraformer:ModelScope 提供 ONNX/TensorRT 导出工具
- ChatTTS:支持 CPU/GPU,10s 音频生成约 2–5 秒
5.2 微调(Fine-tuning)
- ASR 微调:
- Whisper:使用
whisper-finetune库 - Paraformer:ModelScope 提供微调脚本
- TTS 微调:
- ChatTTS:支持音色微调(需 30s+ 目标语音)
- VALL-E X:需 EnCodec 编码 + prompt tuning
5.3 中文场景推荐
- ASR:
SenseVoice>Paraformer>Whisper - TTS:
ChatTTS(对话)/VALL-E X(克隆) - 端到端语音助手:
Moshi+SenseVoice+ChatTTS
六、未来趋势与挑战
6.1 趋势
- 统一语音基础模型:ASR + TTS + 理解 + 生成一体化(如 Moshi)
- 多模态融合:语音 + 视觉 + 文本(如 Audio-Visual LLM)
- 个性化语音:用户自定义音色、语调、风格
- 边缘部署:1B 以下模型在手机 / 嵌入式设备运行
6.2 挑战
- 数据隐私:语音克隆滥用风险
- 方言 / 低资源语言:覆盖仍不足
- 情感真实性:TTS 情感表达仍显机械
- 长语音一致性:长文本合成易出现音色漂移
七、资源汇总
- Hugging Face 语音模型:
https://huggingface.co/models?pipeline_tag=automatic-speech-recognition - ModelScope 语音模型库:
https://modelscope.cn/models?task=automatic-speech-recognition - 开源项目 GitHub:
- Whisper: https://github.com/openai/whisper
- ChatTTS: https://github.com/2noise/ChatTTS
- Moshi: https://github.com/kyutai-labs/moshi
- FunAudioLLM: https://github.com/funaudio/FunAudioLLM
入坑总结
开源语音大模型已进入 多任务、高鲁棒、可部署 的新阶段。Whisper 奠定了基础,Paraformer/SenseVoice 优化了中文场景,ChatTTS/Moshi 则推动了语音生成与交互的边界。开发者可根据任务需求(ASR/TTS/ 理解)、语言、延迟要求选择合适模型,并通过微调适配垂直场景。
📌 一句话选型:
- 要 通用多语言 ASR → Whisper-large-v3
- 要 中文高精度 ASR → SenseVoice 或 Paraformer
- 要 自然对话 TTS → ChatTTS
- 要 实时语音交互 → Moshi
正文完

