TAG:语音合成
智元机器人携手MiniMax推出全模态AI机器人
智元机器人与MiniMax达成深度合作,将AI语音技术与机器人结合,打造拥有专属人设和个性化交互的全模态AI机器人。通过定制化提示词策略和音乐生成模型,提升用户沉浸感,满足家庭、办公等多场景需求。
智元联手MiniMax打造个性化机器人
MiniMax与智元机器人达成战略合作,为后者提供从文本到语音的全流程AI技术支持,实现深度定制的交互体系和“千人千面”的个性化音色合成。此次合作标志着具身智能从“硬核运动”向“情感交互”迈出关键一步,将提升人形机器人在导览、养老及商业服务等场景中的用户体验。
Resemble AI 开源旗舰 TTS 模型 防伪水印助力商业应用
Resemble AI开源旗舰级TTS模型Chatterbox Turbo,仅需5秒参考音频即可精准克隆语音,延迟低至150毫秒,性能超越闭源竞品。模型内置防伪水印功能,支持商业化应用,旨在重塑语音合成市场格局。
阿里巴巴发布Qwen新模型 三秒音频即可克隆声音
阿里巴巴Qwen团队发布两款创新AI语音模型:Qwen3-TTS-VD-Flash可根据文本描述生成定制化声音,支持情感和节奏控制;Qwen3-TTS-VC-Flash仅需3秒音频即可克隆声音,支持十种语言,性能超越竞争对手。两款模型均通过阿里云API提供,适用于广告、配音及多语言声音复制等场景。
谷歌Gemini TTS 2.5发布:支持24种语言与情绪化语音
Google正式推出Gemini TTS 2.5文本转语音模型,主打情绪级表达、上下文自适应节奏及24语种多角色对话功能。新模型可一键切换音色与语速,适用于有声书、游戏NPC等场景,显著提升语音自然度与沉浸感。开发者现可免费测试,预计2025年第一季度投入生产环境。
阿里推出Qwen3-TTS语音合成模型 49种音色可选
阿里通义千问发布新一代语音合成模型Qwen3-TTS,免费向全球开发者开放。该模型提供49种多角色音色,支持10种主流语言和10种中国方言,在词错误率(WER)上表现优异,拟人化程度高。具备自适应语速、实时流式合成等功能,适用于播客、有声书、游戏NPC等多种场景,且默认支持商业用途,无需额外授权费。
Qwen3-TTS升级 多样化声音提升语音合成自然度
Qwen3-TTS语音合成模型迎来全面升级,新增超过49种高品质音色,覆盖不同性别、年龄和地域特征,支持10种主要语言及多种方言,显著提升语音自然度和拟人化效果。通过简单易用的API接口,用户可轻松生成流畅自然的语音内容,满足多样化场景需求。
阿里Qwen3-TTS发布:49种音色支持10语9方言,准确率超越主流商用模型
阿里巴巴推出Qwen3-TTS语音合成模型,支持49种音色、10种语言和9种方言,实现零样本多角色切换。该模型在WER基准测试中超越主流商用引擎,提供免费额度并已上线阿里云,适用于教育、客服、直播等场景。
微软开源实时语音模型VibeVoice,0.5B参数实现300毫秒响应,支持90分钟长音频流畅播放
微软开源实时语音模型VibeVoice-Realtime-0.5B,具备极低延迟(300ms开声)、超长音频生成(90分钟不喘)和多角色对话(支持4人)等强大功能。模型轻量高效,支持中英文,情感表达自然,适用于实时语音助手、有声阅读等场景,已在HuggingFace开源。
语音交互的“GPT时刻”:当MOSS学会“直接听、直接说”,传统方案全面过时
复旦大学MOSS团队开源国内首个端到端语音到语音大模型MOSS-Speech,采用创新层拆分架构,无需传统ASR→LLM→TTS流程即可实现语音问答、情绪模仿和笑声生成。在ZeroSpeech2025评测中WER低至4.1%,情感识别准确率91.2%,中文口语MOS分达4.6接近真人水平。提供48kHz超采样和16kHz轻量版本,支持单张RTX4090实时推理,延迟低于300ms,已开放商用许可。
StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验
StepFun AI发布开源音频编辑模型Step-Audio-EditX,这是一个3B参数的创新模型,将音频编辑转化为类似文本编辑的直观操作。通过双代码本标记器和混合语料库训练,模型实现了对语音情感、风格和音色的精确控制。采用大边距学习和强化学习技术,在Step-Audio-Edit-Test基准测试中展现出卓越的编辑效果,还能提升其他TTS系统的音频质量。