开源语音大模型详细2025笔记

共计 3708 个字符，预计需要花费 10 分钟才能阅读完成。

语音大模型（Speech Foundation Models）(截至 2025 年 10 月)，从语音识别（ASR）、语音合成（TTS）到语音理解、语音翻译、语音情感分析等任务，开源社区已涌现出多个高性能、可商用的语音基础模型。本文系统梳理当前主流 开源语音大模型，涵盖其架构、训练方法、能力边界与部署实践。

一、语音大模型的分类与演进

1.1 传统 vs. 大模型范式

类型	特点	代表
传统语音模型	模块化（声学模型 + 语言模型）、依赖对齐、数据需求小	Kaldi, DeepSpeech
端到端语音大模型	统一架构、自监督预训练、支持多任务、零样本泛化	Whisper, Paraformer, SpeechGPT, VALL-E

1.2 核心任务覆盖

ASR（自动语音识别）：语音 → 文本
TTS（文本到语音）：文本 → 语音
S2ST（语音到语音翻译）：语音 → 目标语种语音
语音理解：情感、语义、说话人识别
语音生成：克隆、风格迁移、多语言合成

二、主流开源语音大模型详解

2.1 Whisper（OpenAI, 2022）

地位：语音大模型的“ImageNet 时刻”

架构：Encoder-Decoder Transformer
训练数据：68 万小时多语言、多任务语音（含噪声、音乐、多人对话）
关键特性：
支持 99 种语言 ASR
统一处理：转录、翻译（→英语）、语言识别
鲁棒性强（对口音、背景噪声、专业术语）
模型规模：
tiny（39M）、base（74M）、small（244M）、medium（769M）、large（1.5B）
开源：✅ 完全开源（GitHub）
推理示例：

  import whisper
  model = whisper.load_model("large")
  result = model.transcribe("audio.mp3", language="zh")
  print(result["text"])

局限：
仅支持 ASR/ 翻译，无 TTS 能力
中文标点恢复较弱
推理速度慢（large 模型需 GPU）

2.2 Paraformer（达摩院, 2022–2024）

中文语音识别标杆

架构：非自回归 Transformer（NAR），引入 Sanm 模型 + CTC + LM 融合
优势：
实时性高：比 Whisper 快 5–10 倍
中文优化：标点、数字、专有名词准确率高
支持 动态 batch 推理
开源：✅（ModelScope）
模型系列：
paraformer-large：通用中文 ASR
paraformer-realtime：流式识别
paraformer-en：英文版
部署：支持 ONNX、TensorRT，适合工业部署

2.3 SenseVoice（FunAudioLLM, 2024）

多语言、多任务语音理解模型

机构：阿里 & 清华
能力：
ASR（50+ 语言）
情感识别（高兴、愤怒、悲伤等）
说话人角色识别（客服 / 用户）
语言 / 方言识别
架构：基于 Whisper 改进，引入多任务头
开源：✅（GitHub）
亮点：
在中文情感识别上超越商业 API
支持 零样本跨语言情感分析

2.4 VALL-E / VALL-E X（微软, 2023–2024）

零样本语音克隆 TTS 模型

核心能力：仅需 3 秒参考语音，即可克隆音色并合成任意文本
架构：
使用 离散声学 token（类似语言模型）
基于 EnCodec 编码器 + Transformer 解码器
开源状态：
VALL-E：仅论文，未开源权重
VALL-E X（多语言扩展）：社区复现版开源（如 VALL-E-X）
社区复现特点：
支持中 / 英 / 日 / 韩等语言
可微调音色
生成质量接近真人，但偶有 artifacts

2.5 ChatTTS（2024）

为对话场景优化的开源 TTS 模型

目标：生成 自然、富有韵律的对话式语音（如 LLM 语音输出）
特点：
支持 中英文混合
可控制 停顿、语调、笑声（如 [laugh]、[breath]）
音色多样（预训练 10+ 音色）
开源：✅（GitHub）
架构：Diffusion + Transformer
应用场景：AI 助手、有声书、虚拟主播

2.6 Moshi（Kyutai, 2024）

首个开源的实时语音交互大模型

架构： 流式 Transformer，支持 语音 ↔ 文本双向实时交互
能力：
实时 ASR + TTS
低延迟（<200ms）
支持打断、连续对话
开源：✅（GitHub）
意义：迈向“语音版 LLM”，实现真正语音对话代理

2.7 SpeechGPT / AudioGPT（学术项目）

语音多模态大模型探索

SpeechGPT（2023）：
基于 LLM + Whisper + TTS 模块拼接
支持语音指令 → 语音回答
开源：部分代码（GitHub）
AudioGPT（2023）：
使用 LLM 协调多个语音专家模型
支持语音分析、生成、编辑
更像“语音操作系统”

⚠️ 注：此类模型多为 系统集成，非端到端统一架构。

三、语音大模型核心技术原理

3.1 自监督预训练（SSL）

Wav2Vec 2.0 / HuBERT（Meta）：
通过预测 masked audio units 学习表征
HuBERT 使用聚类伪标签，效果更优
Whisper：虽未明确使用 SSL，但海量弱监督数据起到类似作用

3.2 离散语音表示（Discrete Speech Tokens）

EnCodec（Meta）：
将语音压缩为离散 token 序列
使语音可像文本一样被 Transformer 处理
是 VALL-E、Voicebox 等模型的基础

3.3 非自回归生成（NAR）

Paraformer、FastSpeech：
一次性预测全部输出，大幅提升 TTS/ASR 速度
通过 CTC 或 duration predictor 对齐

3.4 流式处理（Streaming）

Chunk-based attention：限制注意力范围
Unidirectional encoder：仅使用历史信息
Moshi、Paraformer-realtime 已实现工业级流式 ASR/TTS

四、开源模型性能对比（2025）

模型	任务	语言	参数量	开源	中文优化	实时性
Whisper-large-v3	ASR/ 翻译	99+	1.5B	✅	⚠️ 一般	❌ 慢
Paraformer-large	ASR	中 / 英	~300M	✅	✅ 强	✅ 快
SenseVoice	ASR+ 情感	50+	~1B	✅	✅ 强	✅
VALL-E X（复现）	TTS（克隆）	多语	~1B	✅（社区）	✅	⚠️ 中
ChatTTS	TTS（对话）	中 / 英	~500M	✅	✅ 强	✅
Moshi	ASR+TTS	英 / 法	~700M	✅	❌	✅✅ 极快

五、部署与微调实践建议

5.1 推理部署

Whisper：使用 faster-whisper（基于 CTranslate2）提速 4–10 倍
Paraformer：ModelScope 提供 ONNX/TensorRT 导出工具
ChatTTS：支持 CPU/GPU，10s 音频生成约 2–5 秒

5.2 微调（Fine-tuning）

ASR 微调：
Whisper：使用 whisper-finetune 库
Paraformer：ModelScope 提供微调脚本
TTS 微调：
ChatTTS：支持音色微调（需 30s+ 目标语音）
VALL-E X：需 EnCodec 编码 + prompt tuning

5.3 中文场景推荐

ASR：SenseVoice > Paraformer > Whisper
TTS：ChatTTS（对话）/ VALL-E X（克隆）
端到端语音助手：Moshi + SenseVoice + ChatTTS

六、未来趋势与挑战

6.1 趋势

统一语音基础模型：ASR + TTS + 理解 + 生成一体化（如 Moshi）
多模态融合：语音 + 视觉 + 文本（如 Audio-Visual LLM）
个性化语音：用户自定义音色、语调、风格
边缘部署：1B 以下模型在手机 / 嵌入式设备运行

6.2 挑战

数据隐私：语音克隆滥用风险
方言 / 低资源语言：覆盖仍不足
情感真实性：TTS 情感表达仍显机械
长语音一致性：长文本合成易出现音色漂移

七、资源汇总

Hugging Face 语音模型：
https://huggingface.co/models?pipeline_tag=automatic-speech-recognition
ModelScope 语音模型库：
https://modelscope.cn/models?task=automatic-speech-recognition
开源项目 GitHub：
Whisper: https://github.com/openai/whisper
ChatTTS: https://github.com/2noise/ChatTTS
Moshi: https://github.com/kyutai-labs/moshi
FunAudioLLM: https://github.com/funaudio/FunAudioLLM

入坑总结

开源语音大模型已进入 多任务、高鲁棒、可部署 的新阶段。Whisper 奠定了基础，Paraformer/SenseVoice 优化了中文场景，ChatTTS/Moshi 则推动了语音生成与交互的边界。开发者可根据任务需求（ASR/TTS/ 理解）、语言、延迟要求选择合适模型，并通过微调适配垂直场景。

📌 一句话选型：

要 通用多语言 ASR → Whisper-large-v3

要 中文高精度 ASR → SenseVoice 或 Paraformer

要 自然对话 TTS → ChatTTS

要 实时语音交互 → Moshi

打赏赞(1)