TAG:多模态
火山引擎升级豆包语音识别模型2.0 多语种识别精度显著提升
火山引擎发布豆包语音识别模型2.0,该模型在推理能力和多模态理解上实现显著升级。它不仅针对专有名词、多音字等复杂场景优化,提升识别准确率,还新增对13种海外语言的支持,并能结合图像内容进行精准识别,有效拓展了跨语言和多场景应用。
OCR的“轻骑兵”突袭:当腾讯混元,用10亿参数,重塑“文字识别”
腾讯混元开源全新OCR模型HunyuanOCR,仅10亿参数却斩获多项SOTA成绩。该模型采用端到端设计,在复杂文档解析、多场景文字检测识别中表现卓越,支持14种小语种翻译并荣获ICDAR2025冠军。轻量化架构便于部署,已应用于卡证处理、视频创作等场景,用户可通过GitHub和Hugging Face快速体验。
30秒生成应用的AI助手来了!蚂蚁集团灵光App正式上线
蚂蚁集团正式发布全模态通用AI助手“灵光”,创新实现30秒内通过自然语言生成可编辑、可交互的小应用。该应用支持3D模型、音视频、图表等多模态内容输出,提供“灵光对话”、“灵光闪应用”和“灵光开眼”三大功能,让复杂信息简单呈现,普通用户也能零门槛享受AI编程带来的生产力变革。
这位机器人“指挥官”,能蒙眼辨认近2000把数控刀具
2025-12-06
0 浏览
机器人斗舞广西上演 未来舞台即将开启
2025-12-06
0 浏览
欠中国代工厂超25亿元,美知名机器人公司爆雷,濒临破产!
2025-12-06
0 浏览
机器人租赁市场回归理性 昔日万元日薪腰斩 年末需求回暖
2025-12-06
0 浏览
腾讯发布混元2.0大模型,全面提升多项能力
2025-12-06
0 浏览
2025智能机器人大赛决赛将于12月8、9日举行,奖金池突破百万,设四大细分赛道
2025-12-06
0 浏览
英伟达发布AI新框架 8亿参数模型优化工具管理
2025-12-05
0 浏览
日本AI技术助力青少年自杀倾向早期识别
2025-12-05
0 浏览
景顺看好中国科技股
2025-12-05
0 浏览
人形机器人订单激增 花旗大摩预测2026年增长十倍
2025-12-05
0 浏览