TAG:语音识别

演员刘美含遇铸币坊读音难题五个AI发音各异

演员刘美含在为新剧配音时，因不确定“铸币坊”中“坊”字的读音，先后求助了5家主流AI工具，结果却得到了不同的答案，甚至同款软件在不同设备上也不统一。最终通过新华词典确认正确读音为fáng。此事引发了关于AI在处理严谨学术问题时存在“幻觉”和不一致性的讨论。

aibase

2026-03-02 16:54

OpenAI语音API全面升级：转录精度提升代理速度提升40%

OpenAI 发布两项重要 API 更新，包括全新的实时模型 gpt-realtime-1.5 和引入 WebSocket 协议的 Responses API。新模型显著提升了数字、字母转录及语音指令执行的准确率，而架构改进则使复杂 AI 代理的运行速度大幅提升 20%-40%，全面优化了语音交互与任务处理性能。

aibase

2026-02-25 11:03

搜狗输入法AI用户破亿语音准确率高达98%

搜狗输入法20.0版本全面AI化，基于大模型重塑交互逻辑，语音识别准确率达98%、延时降低40%，并支持智能纠错与多语言翻译。AI用户已破亿，日均语音请求近20亿次，标志着输入法从工具时代迈入智能助手时代。

aibase

2026-01-27 15:48

腾讯搜狗输入法20.0版发布全面融入AI技术

腾讯搜狗输入法发布20.0纪念版本，宣布全面AI化升级。新版本依托腾讯混元大模型，在AI语音、AI翻译和AI打字三大维度实现突破：语音识别延时降低40%，准确率达98%，并优化轻声场景；翻译支持超30种语言，实现输入即译；打字候选词更精准，热词更新及时。同时新增一键关闭键盘广告功能，提升纯净体验。

aibase

2026-01-27 14:47

谷歌深化医疗AI开源布局：MedGemma 1.5提升医学影像性能，发布语音转写模型MedASR

谷歌发布新一代开源医疗大模型MedGemma 1.5和语音识别模型MedASR，强化医学影像分析能力并优化临床语音转写。MedGemma 1.5支持多模态数据，辅助筛查诊断；MedASR提升病历录入效率。两者均基于合规数据开源发布，推动医疗AI普惠应用。

aibase

2026-01-14 16:42

智谱AI发布新版输入法语音识别技术开源

智谱AI正式发布GLM-ASR系列语音识别模型，包括全球领先的云端模型GLM-ASR-2512和开源的端侧模型GLM-ASR-Nano-2512，提供高精度、低延迟的语音转文字能力。同时推出新款智谱AI输入法，支持语音输入、翻译和文本改写，为PC用户带来便捷的智能交互体验。新用户可获赠2000积分，享受28天免费使用。

aibase

2025-12-10 14:33

火山引擎升级豆包语音识别模型2.0 多语种识别精度显著提升

火山引擎发布豆包语音识别模型2.0，该模型在推理能力和多模态理解上实现显著升级。它不仅针对专有名词、多音字等复杂场景优化，提升识别准确率，还新增对13种海外语言的支持，并能结合图像内容进行精准识别，有效拓展了跨语言和多场景应用。

aibase

2025-12-05 16:29

豆包变身“方言翻译官”！支持四种方言，秒解爷孙沟通“鸡同鸭讲”

豆包App最新升级语音功能，新增支持粤语、四川话、东北话和陕西话四种地道方言对话。通过方言迁移技术，用户可使用'温柔桃子'音色进行自然流畅的方言交流，并能智能切换方言。该功能特别适合习惯使用方言的老年群体，大幅提升沟通效率，同时支持理解18种方言，让语音交互更轻松便捷。

爱力方

2025-12-01 15:10

Reverie发布印度语音识别模型，准确率超越Deepgram

Reverie Language Technologies在成立16周年之际推出专为印度市场设计的语音转文本模型，支持印地语、英语及Hinglish等混合语言。该模型在独立测试中准确率比Deepgram高4.2%，响应速度快1.5倍，已处理300万次API调用，广泛应用于银行、呼叫中心等领域，有效识别印度多语言环境中的数字、名称和文化特定表达。

互联网

2025-11-13 17:40

Meta发布Omnilingual ASR，一场为7000种语言发起的数字平权革命

Meta发布革命性Omnilingual ASR语音识别系统，支持1600种语言的高精度识别，其中78%语言识别错误率低于10%。系统采用上下文少样本学习技术，仅需3-5段音频样本即可快速适配新语种，理论支持语言数达5400种。这一开源技术突破让小语种和濒危语言首次获得AI平等对待，助力全球语言多样性保护和文化传承。

爱力方

2025-11-12 15:37

Meta发布Omnilingual ASR系统：实现1600种语言的语音识别

Meta推出革命性的Omnilingual ASR自动语音识别系统，支持1600种语言的语音转录，其中500种语言首次获得AI覆盖。该系统采用上下文学习技术，用户只需提供少量样本即可扩展识别能力，理论上可支持超过5400种语言。Meta同时开源了包含350种语言的大型数据集，帮助开发者为特定地区构建定制化语音识别模型，显著推进全球语言无障碍进程。

爱力方

2025-11-11 12:25

通知

尊敬的用户

user

TAG:语音识别

演员刘美含遇铸币坊读音难题五个AI发音各异

OpenAI语音API全面升级：转录精度提升代理速度提升40%

搜狗输入法AI用户破亿语音准确率高达98%

腾讯搜狗输入法20.0版发布全面融入AI技术

谷歌深化医疗AI开源布局：MedGemma 1.5提升医学影像性能，发布语音转写模型MedASR

智谱AI发布新版输入法语音识别技术开源

火山引擎升级豆包语音识别模型2.0 多语种识别精度显著提升

豆包变身“方言翻译官”！支持四种方言，秒解爷孙沟通“鸡同鸭讲”

Reverie发布印度语音识别模型，准确率超越Deepgram

Meta发布Omnilingual ASR，一场为7000种语言发起的数字平权革命

Meta发布Omnilingual ASR系统：实现1600种语言的语音识别

快讯

消费者购车洽谈遭录音奥迪门店称厂家要求折射经销商返利考核压力

2026年大模型GEO优化服务商标杆企业推荐精选

马云谈AI时代胜负关键：不在芯片在心跳阿里核心高管齐聚云谷论教育

2026年GEO优化服务商Top3推荐：商家AI搜索流量布局指南

中国AI产品创新提速美图RoboNeo登顶巴西App Store分类榜

全国人大代表吴丰礼：建议试点粤港澳大湾区AI制度创新，夯实具身智能工业数据基建

头部酒企新春首课聚焦AI：不转型就出局

千问持续投入AI办事春节完成2亿笔真实订单

追觅科技在浙江新设智能科技公司，注册资本2000万元

霍尔木兹海峡受阻丰田被迫减产4万辆汽车

推荐专栏

爱力方

机器人大讲堂

user

TAG:语音识别

演员刘美含遇铸币坊读音难题 五个AI发音各异

OpenAI语音API全面升级：转录精度提升 代理速度提升40%

搜狗输入法AI用户破亿 语音准确率高达98%

腾讯搜狗输入法20.0版发布 全面融入AI技术

谷歌深化医疗AI开源布局：MedGemma 1.5提升医学影像性能，发布语音转写模型MedASR

智谱AI发布新版输入法 语音识别技术开源

火山引擎升级豆包语音识别模型2.0 多语种识别精度显著提升

豆包变身“方言翻译官”！支持四种方言，秒解爷孙沟通“鸡同鸭讲”

Reverie发布印度语音识别模型，准确率超越Deepgram

Meta发布Omnilingual ASR，一场为7000种语言发起的数字平权革命

Meta发布Omnilingual ASR系统：实现1600种语言的语音识别

快讯

消费者购车洽谈遭录音 奥迪门店称厂家要求 折射经销商返利考核压力

2026年大模型GEO优化服务商标杆企业推荐精选

马云谈AI时代胜负关键：不在芯片在心跳 阿里核心高管齐聚云谷论教育

2026年GEO优化服务商Top3推荐：商家AI搜索流量布局指南

中国AI产品创新提速 美图RoboNeo登顶巴西App Store分类榜

全国人大代表吴丰礼：建议试点粤港澳大湾区AI制度创新，夯实具身智能工业数据基建

头部酒企新春首课聚焦AI：不转型就出局

千问持续投入AI办事 春节完成2亿笔真实订单

追觅科技在浙江新设智能科技公司，注册资本2000万元

霍尔木兹海峡受阻 丰田被迫减产4万辆汽车

推荐专栏

爱力方

机器人大讲堂

演员刘美含遇铸币坊读音难题五个AI发音各异

OpenAI语音API全面升级：转录精度提升代理速度提升40%

搜狗输入法AI用户破亿语音准确率高达98%

腾讯搜狗输入法20.0版发布全面融入AI技术

智谱AI发布新版输入法语音识别技术开源

消费者购车洽谈遭录音奥迪门店称厂家要求折射经销商返利考核压力

马云谈AI时代胜负关键：不在芯片在心跳阿里核心高管齐聚云谷论教育

中国AI产品创新提速美图RoboNeo登顶巴西App Store分类榜

千问持续投入AI办事春节完成2亿笔真实订单

霍尔木兹海峡受阻丰田被迫减产4万辆汽车