TAG:VibeVoice

微软发布0.5B参数语音模型 近乎实时生成自然语音

微软发布0.5B参数语音模型 近乎实时生成自然语音

微软发布VibeVoice-Realtime-0.5B,一款仅0.5B参数的实时文本转语音模型,能在约300毫秒内开始发声,实现接近实时的流畅语音生成。该模型支持中英文,具备高自然音质、多角色对话和情感表达能力,最长可稳定输出90分钟语音,适用于智能助手、播客等场景。

爱力方 2025-12-05 15:10
0
0