TAG:VibeVoice

微软发布VibeVoice‑Realtime 实时文本转语音模型 助力互动应用

微软发布VibeVoice‑Realtime 实时文本转语音模型 助力互动应用

微软推出VibeVoice-Realtime-0.5B,这是一款轻量级实时文本转语音模型,支持流式文本输入和长篇语音输出。该模型能在约300毫秒内开始输出可听语音,特别适合代理对话、实时数据讲述等互动式应用。通过交错窗口设计和声学标记器优化,它在LibriSpeech测试中字错误率仅2.00%,表现卓越,为AI语音合成提供了高效解决方案。

2025-12-08 11:14
0
0

微软发布0.5B参数语音模型 近乎实时生成自然语音

微软发布0.5B参数语音模型 近乎实时生成自然语音

微软发布VibeVoice-Realtime-0.5B,一款仅0.5B参数的实时文本转语音模型,能在约300毫秒内开始发声,实现接近实时的流畅语音生成。该模型支持中英文,具备高自然音质、多角色对话和情感表达能力,最长可稳定输出90分钟语音,适用于智能助手、播客等场景。

爱力方 2025-12-05 15:10
0
0