TAG:语音模型

微软开源实时语音模型VibeVoice,0.5B参数实现300毫秒响应,支持90分钟长音频流畅播放

微软开源实时语音模型VibeVoice,0.5B参数实现300毫秒响应,支持90分钟长音频流畅播放

微软开源实时语音模型VibeVoice-Realtime-0.5B,具备极低延迟(300ms开声)、超长音频生成(90分钟不喘)和多角色对话(支持4人)等强大功能。模型轻量高效,支持中英文,情感表达自然,适用于实时语音助手、有声阅读等场景,已在HuggingFace开源。

2025-12-05 16:00
0
0

Fish Audio

Fish Audio

2025-09-17 15:34
3
0