TAG:多模态

火山引擎升级豆包语音识别模型2.0 多语种识别精度显著提升

火山引擎升级豆包语音识别模型2.0 多语种识别精度显著提升

火山引擎发布豆包语音识别模型2.0,该模型在推理能力和多模态理解上实现显著升级。它不仅针对专有名词、多音字等复杂场景优化,提升识别准确率,还新增对13种海外语言的支持,并能结合图像内容进行精准识别,有效拓展了跨语言和多场景应用。

2025-12-05 16:29
0
0

 OCR的“轻骑兵”突袭:当腾讯混元,用10亿参数,重塑“文字识别”

OCR的“轻骑兵”突袭:当腾讯混元,用10亿参数,重塑“文字识别”

腾讯混元开源全新OCR模型HunyuanOCR,仅10亿参数却斩获多项SOTA成绩。该模型采用端到端设计,在复杂文档解析、多场景文字检测识别中表现卓越,支持14种小语种翻译并荣获ICDAR2025冠军。轻量化架构便于部署,已应用于卡证处理、视频创作等场景,用户可通过GitHub和Hugging Face快速体验。

爱力方 2025-11-25 17:51
6
0

30秒生成应用的AI助手来了!蚂蚁集团灵光App正式上线

30秒生成应用的AI助手来了!蚂蚁集团灵光App正式上线

蚂蚁集团正式发布全模态通用AI助手“灵光”,创新实现30秒内通过自然语言生成可编辑、可交互的小应用。该应用支持3D模型、音视频、图表等多模态内容输出,提供“灵光对话”、“灵光闪应用”和“灵光开眼”三大功能,让复杂信息简单呈现,普通用户也能零门槛享受AI编程带来的生产力变革。

爱力方 2025-11-18 11:48
56
0