TAG:语音合成

微软开源实时语音模型VibeVoice,0.5B参数实现300毫秒响应,支持90分钟长音频流畅播放

微软开源实时语音模型VibeVoice,0.5B参数实现300毫秒响应,支持90分钟长音频流畅播放

微软开源实时语音模型VibeVoice-Realtime-0.5B,具备极低延迟(300ms开声)、超长音频生成(90分钟不喘)和多角色对话(支持4人)等强大功能。模型轻量高效,支持中英文,情感表达自然,适用于实时语音助手、有声阅读等场景,已在HuggingFace开源。

2025-12-05 16:00
0
0

语音交互的“GPT时刻”:当MOSS学会“直接听、直接说”,传统方案全面过时

语音交互的“GPT时刻”:当MOSS学会“直接听、直接说”,传统方案全面过时

复旦大学MOSS团队开源国内首个端到端语音到语音大模型MOSS-Speech,采用创新层拆分架构,无需传统ASR→LLM→TTS流程即可实现语音问答、情绪模仿和笑声生成。在ZeroSpeech2025评测中WER低至4.1%,情感识别准确率91.2%,中文口语MOS分达4.6接近真人水平。提供48kHz超采样和16kHz轻量版本,支持单张RTX4090实时推理,延迟低于300ms,已开放商用许可。

爱力方 2025-11-20 16:51
0
0

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验

StepFun AI发布开源音频编辑模型Step-Audio-EditX,这是一个3B参数的创新模型,将音频编辑转化为类似文本编辑的直观操作。通过双代码本标记器和混合语料库训练,模型实现了对语音情感、风格和音色的精确控制。采用大边距学习和强化学习技术,在Step-Audio-Edit-Test基准测试中展现出卓越的编辑效果,还能提升其他TTS系统的音频质量。

2025-11-10 10:50
0
0