TAG:可控语音合成

Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”

Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”

StepFun AI发布开源项目Step-Audio-EditX,基于30亿参数音频语言模型,首次将语音编辑转化为类似文本标记级别的可控操作。该模型通过双码本分词架构和大间隔学习技术,实现情感、语调、风格及副语言特征的精准编辑,在中文情感准确率上从57.0%提升至77.7%。项目全栈开源,大幅降低语音编辑研究门槛,让开发者能像编辑文本一样直观操作语音。

2025-11-10 15:31
0
0