TAG:语音识别

火山引擎升级豆包语音识别模型2.0 多语种识别精度显著提升

火山引擎升级豆包语音识别模型2.0 多语种识别精度显著提升

火山引擎发布豆包语音识别模型2.0,该模型在推理能力和多模态理解上实现显著升级。它不仅针对专有名词、多音字等复杂场景优化,提升识别准确率,还新增对13种海外语言的支持,并能结合图像内容进行精准识别,有效拓展了跨语言和多场景应用。

2025-12-05 16:29
0
0

豆包变身“方言翻译官”!支持四种方言,秒解爷孙沟通“鸡同鸭讲”

豆包变身“方言翻译官”!支持四种方言,秒解爷孙沟通“鸡同鸭讲”

豆包App最新升级语音功能,新增支持粤语、四川话、东北话和陕西话四种地道方言对话。通过方言迁移技术,用户可使用'温柔桃子'音色进行自然流畅的方言交流,并能智能切换方言。该功能特别适合习惯使用方言的老年群体,大幅提升沟通效率,同时支持理解18种方言,让语音交互更轻松便捷。

爱力方 2025-12-01 15:10
3
0

Reverie发布印度语音识别模型,准确率超越Deepgram

Reverie发布印度语音识别模型,准确率超越Deepgram

Reverie Language Technologies在成立16周年之际推出专为印度市场设计的语音转文本模型,支持印地语、英语及Hinglish等混合语言。该模型在独立测试中准确率比Deepgram高4.2%,响应速度快1.5倍,已处理300万次API调用,广泛应用于银行、呼叫中心等领域,有效识别印度多语言环境中的数字、名称和文化特定表达。

2025-11-13 17:40
0
0

Meta发布Omnilingual ASR,一场为7000种语言发起的数字平权革命

Meta发布Omnilingual ASR,一场为7000种语言发起的数字平权革命

Meta发布革命性Omnilingual ASR语音识别系统,支持1600种语言的高精度识别,其中78%语言识别错误率低于10%。系统采用上下文少样本学习技术,仅需3-5段音频样本即可快速适配新语种,理论支持语言数达5400种。这一开源技术突破让小语种和濒危语言首次获得AI平等对待,助力全球语言多样性保护和文化传承。

爱力方 2025-11-12 15:37
0
0

Meta发布Omnilingual ASR系统:实现1600种语言的语音识别

Meta发布Omnilingual ASR系统:实现1600种语言的语音识别

Meta推出革命性的Omnilingual ASR自动语音识别系统,支持1600种语言的语音转录,其中500种语言首次获得AI覆盖。该系统采用上下文学习技术,用户只需提供少量样本即可扩展识别能力,理论上可支持超过5400种语言。Meta同时开源了包含350种语言的大型数据集,帮助开发者为特定地区构建定制化语音识别模型,显著推进全球语言无障碍进程。

爱力方 2025-11-11 12:25
34
0