TAG:语音识别
演员刘美含遇铸币坊读音难题 五个AI发音各异
演员刘美含在为新剧配音时,因不确定“铸币坊”中“坊”字的读音,先后求助了5家主流AI工具,结果却得到了不同的答案,甚至同款软件在不同设备上也不统一。最终通过新华词典确认正确读音为fáng。此事引发了关于AI在处理严谨学术问题时存在“幻觉”和不一致性的讨论。
OpenAI语音API全面升级:转录精度提升 代理速度提升40%
OpenAI 发布两项重要 API 更新,包括全新的实时模型 gpt-realtime-1.5 和引入 WebSocket 协议的 Responses API。新模型显著提升了数字、字母转录及语音指令执行的准确率,而架构改进则使复杂 AI 代理的运行速度大幅提升 20%-40%,全面优化了语音交互与任务处理性能。
搜狗输入法AI用户破亿 语音准确率高达98%
搜狗输入法20.0版本全面AI化,基于大模型重塑交互逻辑,语音识别准确率达98%、延时降低40%,并支持智能纠错与多语言翻译。AI用户已破亿,日均语音请求近20亿次,标志着输入法从工具时代迈入智能助手时代。
腾讯搜狗输入法20.0版发布 全面融入AI技术
腾讯搜狗输入法发布20.0纪念版本,宣布全面AI化升级。新版本依托腾讯混元大模型,在AI语音、AI翻译和AI打字三大维度实现突破:语音识别延时降低40%,准确率达98%,并优化轻声场景;翻译支持超30种语言,实现输入即译;打字候选词更精准,热词更新及时。同时新增一键关闭键盘广告功能,提升纯净体验。
谷歌深化医疗AI开源布局:MedGemma 1.5提升医学影像性能,发布语音转写模型MedASR
谷歌发布新一代开源医疗大模型MedGemma 1.5和语音识别模型MedASR,强化医学影像分析能力并优化临床语音转写。MedGemma 1.5支持多模态数据,辅助筛查诊断;MedASR提升病历录入效率。两者均基于合规数据开源发布,推动医疗AI普惠应用。
智谱AI发布新版输入法 语音识别技术开源
智谱AI正式发布GLM-ASR系列语音识别模型,包括全球领先的云端模型GLM-ASR-2512和开源的端侧模型GLM-ASR-Nano-2512,提供高精度、低延迟的语音转文字能力。同时推出新款智谱AI输入法,支持语音输入、翻译和文本改写,为PC用户带来便捷的智能交互体验。新用户可获赠2000积分,享受28天免费使用。
火山引擎升级豆包语音识别模型2.0 多语种识别精度显著提升
火山引擎发布豆包语音识别模型2.0,该模型在推理能力和多模态理解上实现显著升级。它不仅针对专有名词、多音字等复杂场景优化,提升识别准确率,还新增对13种海外语言的支持,并能结合图像内容进行精准识别,有效拓展了跨语言和多场景应用。
豆包变身“方言翻译官”!支持四种方言,秒解爷孙沟通“鸡同鸭讲”
豆包App最新升级语音功能,新增支持粤语、四川话、东北话和陕西话四种地道方言对话。通过方言迁移技术,用户可使用'温柔桃子'音色进行自然流畅的方言交流,并能智能切换方言。该功能特别适合习惯使用方言的老年群体,大幅提升沟通效率,同时支持理解18种方言,让语音交互更轻松便捷。
Reverie发布印度语音识别模型,准确率超越Deepgram
Reverie Language Technologies在成立16周年之际推出专为印度市场设计的语音转文本模型,支持印地语、英语及Hinglish等混合语言。该模型在独立测试中准确率比Deepgram高4.2%,响应速度快1.5倍,已处理300万次API调用,广泛应用于银行、呼叫中心等领域,有效识别印度多语言环境中的数字、名称和文化特定表达。
Meta发布Omnilingual ASR,一场为7000种语言发起的数字平权革命
Meta发布革命性Omnilingual ASR语音识别系统,支持1600种语言的高精度识别,其中78%语言识别错误率低于10%。系统采用上下文少样本学习技术,仅需3-5段音频样本即可快速适配新语种,理论支持语言数达5400种。这一开源技术突破让小语种和濒危语言首次获得AI平等对待,助力全球语言多样性保护和文化传承。
Meta发布Omnilingual ASR系统:实现1600种语言的语音识别
Meta推出革命性的Omnilingual ASR自动语音识别系统,支持1600种语言的语音转录,其中500种语言首次获得AI覆盖。该系统采用上下文学习技术,用户只需提供少量样本即可扩展识别能力,理论上可支持超过5400种语言。Meta同时开源了包含350种语言的大型数据集,帮助开发者为特定地区构建定制化语音识别模型,显著推进全球语言无障碍进程。