TAG:语音大模型

语音交互的“GPT时刻”:当MOSS学会“直接听、直接说”,传统方案全面过时

语音交互的“GPT时刻”:当MOSS学会“直接听、直接说”,传统方案全面过时

复旦大学MOSS团队开源国内首个端到端语音到语音大模型MOSS-Speech,采用创新层拆分架构,无需传统ASR→LLM→TTS流程即可实现语音问答、情绪模仿和笑声生成。在ZeroSpeech2025评测中WER低至4.1%,情感识别准确率91.2%,中文口语MOS分达4.6接近真人水平。提供48kHz超采样和16kHz轻量版本,支持单张RTX4090实时推理,延迟低于300ms,已开放商用许可。

爱力方 2025-11-20 16:51
0
0