TAG:实时语音合成

微软发布VibeVoice‑Realtime 实时文本转语音模型 助力互动应用

微软发布VibeVoice‑Realtime 实时文本转语音模型 助力互动应用

微软推出VibeVoice-Realtime-0.5B,这是一款轻量级实时文本转语音模型,支持流式文本输入和长篇语音输出。该模型能在约300毫秒内开始输出可听语音,特别适合代理对话、实时数据讲述等互动式应用。通过交错窗口设计和声学标记器优化,它在LibriSpeech测试中字错误率仅2.00%,表现卓越,为AI语音合成提供了高效解决方案。

2025-12-08 11:14
0
0