TAG:视觉语言模型

谷歌前员工创办InfiniMind挖掘视频暗数据助力企业解锁PB级资产

InfiniMind是一家由前谷歌员工创办的东京初创公司，专注于利用AI技术将企业长期封存的PB级视频‘暗数据’转化为可搜索、可分析的结构化商业智能。其核心平台DeepFrame能处理长达200小时的视频，精准识别场景和事件，帮助媒体、零售等行业解锁视频资产价值，已获得580万美元种子轮融资。

aibase

2026-02-10 19:35

打印纸竟能劫持自动驾驶视觉语言模型安全漏洞曝光

加州大学圣克鲁斯分校的研究揭示，自动驾驶系统依赖的视觉语言模型存在严重安全漏洞。攻击者仅需一张带有特定文本的打印标识，就能诱导AI无视行人等安全风险，执行危险指令，成功率高达81.8%。这种名为“CHAI”的物理攻击方法暴露了AI系统在现实部署中的脆弱性，亟需建立有效的安全防御机制。

aibase

2026-02-02 17:40

liko.ai完成首轮融资，以端侧视觉语言模型革新智能家居领域

初创公司liko.ai完成首轮融资，致力于开发端侧视觉语言模型及AI硬件，旨在通过本地化部署的AI技术革新智能家居体验，打造能理解并保护用户的家庭计算中枢。

aibase

2026-01-06 15:52

多模态大模型最新评测结果公布 Gemini-3-Pro稳居榜首国产模型豆包、商汤表现亮眼 Qwen3-VL成为首个开源高分模型

SuperCLUE-VLM发布2025年12月多模态视觉语言模型评测榜单，谷歌Gemini-3-Pro以83.64分断层领先。国产模型中，商汤SenseNova V6.5Pro和字节豆包大模型表现亮眼，分别位列第二、第三。阿里Qwen3-VL成为首个总分突破70分的开源模型，推动技术民主化。榜单揭示了多模态竞赛进入实用化新阶段，视觉推理仍是关键瓶颈。

aibase

2025-12-31 11:36

香港大学与智元联合团队发布人形机器人全身VLA框架

香港大学、智元AGIBOT等联合研究团队提出WholeBodyVLA框架，将视觉-语言-动作模型扩展至双足人形机器人全身控制，基于智元灵犀X2平台验证了其在全身移动操作任务中的可行性，推动人形机器人向真实世界应用迈进。

科创板日报

2025-12-21 20:16

斯坦福推出图书馆机器人两周完成五人九月工作量 VLA识别准确率提升一倍

斯坦福大学与丰田研究所联合开发了名为Scanford的图书馆机器人，通过机器人驱动数据飞轮框架，在两周内完成2103个书架扫描，将视觉语言模型的多语言书籍识别率从32.4%提升至71.8%。该研究展示了机器人如何自主收集真实场景数据，优化大模型性能，突破其在复杂物理环境中的应用瓶颈。

具身研习社

2025-12-19 17:12

阿里开源Qwen3-VL，攻克长视频分析难题，引领多模态技术突破

阿里巴巴开源了新一代视觉-语言大模型Qwen3-VL，在长视频分析领域取得重大突破。该模型在长达2小时的视频中能保持99.5%的关键帧定位准确率，解决了长时序理解的核心难题。同时，在视觉数学和多语言文档处理等专项任务上也达到业界领先水平，为视频分析、智能剪辑等应用提供了自主可控的解决方案。

爱力方

2025-12-04 17:10

Nvidia 发布新 AI 模型Alpamayo-R1，推动自动驾驶研究向前迈进

Nvidia在NeurIPS AI大会上发布了专为自动驾驶研究设计的开放推理视觉语言模型Alpamayo-R1。该模型基于Cosmos-Reason，能够处理文本和图像，帮助车辆感知环境并做出类似人类的决策，旨在推动四级自动驾驶的实现。Nvidia还提供了Cosmos Cookbook等资源，支持开发者训练和使用AI模型，加速物理AI领域的发展。

aibase

2025-12-02 16:39

英伟达为自动驾驶装上“推理大脑”：新模型专注实时决策，预判事故于发生之前

英伟达在NeurIPS大会上发布了首个专注于自动驾驶的推理视觉语言模型Alpamayo-R1，旨在赋予自动驾驶汽车类似人类的决策能力，以加速L4级完全自动驾驶的实现。同时推出的Cosmos Cookbook为开发者提供了从数据整理到模型评估的全套指南，助力物理人工智能技术的应用落地。

爱力方

2025-12-02 11:30

VLA终于有了 “长期记忆”：斯坦福MemER框架破解分钟级长时序操纵难题！

斯坦福大学提出的MemER框架通过分层策略与经验检索机制，解决了机器人长时序任务中的记忆难题。该框架让机器人能够主动筛选关键信息，在分钟级真实场景任务中实现高效推理，避免了传统方法因处理长序列数据导致的计算成本爆炸和记忆冗余问题。

具身智能大讲堂

2025-10-28 18:09

从“被动执行”到“主动协作”，复旦大学Ask-to-Clarify框架重塑人机交互范式

复旦大学研究团队提出Ask-to-Clarify框架，通过多轮对话澄清模糊指令，使具身智能体从被动执行转变为主动协作。该框架结合视觉-语言模型和扩散模型，采用两阶段训练策略，在8项实际任务测试中成功率高达90%-98.3%，为人机自然交互提供了创新解决方案。

机器人大讲堂

2025-10-01 19:52

机器人感知大升级！轻量化注入几何先验，成功率提升31%

上海交通大学与剑桥大学联合提出Evo-0方法，通过隐式注入3D几何先验增强机器人视觉语言动作模型的空间理解能力。该方法利用VGGT模型从多视角RGB图像提取3D结构信息，无需额外传感器或深度输入，在仿真实验中成功率提升31%，真实世界操作任务成功率提升28.88%，显著提升了机器人对空间结构和物体布局的感知精度。

量子位

2025-09-29 20:38

通知

尊敬的用户

user

TAG:视觉语言模型

谷歌前员工创办InfiniMind挖掘视频暗数据助力企业解锁PB级资产

打印纸竟能劫持自动驾驶视觉语言模型安全漏洞曝光

liko.ai完成首轮融资，以端侧视觉语言模型革新智能家居领域

多模态大模型最新评测结果公布 Gemini-3-Pro稳居榜首国产模型豆包、商汤表现亮眼 Qwen3-VL成为首个开源高分模型

香港大学与智元联合团队发布人形机器人全身VLA框架

斯坦福推出图书馆机器人两周完成五人九月工作量 VLA识别准确率提升一倍

阿里开源Qwen3-VL，攻克长视频分析难题，引领多模态技术突破

Nvidia 发布新 AI 模型Alpamayo-R1，推动自动驾驶研究向前迈进

英伟达为自动驾驶装上“推理大脑”：新模型专注实时决策，预判事故于发生之前

VLA终于有了 “长期记忆”：斯坦福MemER框架破解分钟级长时序操纵难题！

从“被动执行”到“主动协作”，复旦大学Ask-to-Clarify框架重塑人机交互范式

机器人感知大升级！轻量化注入几何先验，成功率提升31%

快讯

消费者购车洽谈遭录音奥迪门店称厂家要求折射经销商返利考核压力

2026年大模型GEO优化服务商标杆企业推荐精选

马云谈AI时代胜负关键：不在芯片在心跳阿里核心高管齐聚云谷论教育

2026年GEO优化服务商Top3推荐：商家AI搜索流量布局指南

中国AI产品创新提速美图RoboNeo登顶巴西App Store分类榜

全国人大代表吴丰礼：建议试点粤港澳大湾区AI制度创新，夯实具身智能工业数据基建

头部酒企新春首课聚焦AI：不转型就出局

千问持续投入AI办事春节完成2亿笔真实订单

追觅科技在浙江新设智能科技公司，注册资本2000万元

霍尔木兹海峡受阻丰田被迫减产4万辆汽车

推荐专栏

爱力方

机器人大讲堂

user

TAG:视觉语言模型

谷歌前员工创办InfiniMind挖掘视频暗数据助力企业解锁PB级资产

打印纸竟能劫持自动驾驶 视觉语言模型安全漏洞曝光

liko.ai完成首轮融资，以端侧视觉语言模型革新智能家居领域

多模态大模型最新评测结果公布 Gemini-3-Pro稳居榜首 国产模型豆包、商汤表现亮眼 Qwen3-VL成为首个开源高分模型

香港大学与智元联合团队发布人形机器人全身VLA框架

斯坦福推出图书馆机器人 两周完成五人九月工作量 VLA识别准确率提升一倍

阿里开源Qwen3-VL，攻克长视频分析难题，引领多模态技术突破

​Nvidia 发布新 AI 模型Alpamayo-R1，推动自动驾驶研究向前迈进

英伟达为自动驾驶装上“推理大脑”：新模型专注实时决策，预判事故于发生之前

VLA终于有了 “长期记忆”：斯坦福MemER框架破解分钟级长时序操纵难题！

从“被动执行”到“主动协作”，复旦大学Ask-to-Clarify框架重塑人机交互范式

机器人感知大升级！轻量化注入几何先验，成功率提升31%

快讯

消费者购车洽谈遭录音 奥迪门店称厂家要求 折射经销商返利考核压力

2026年大模型GEO优化服务商标杆企业推荐精选

马云谈AI时代胜负关键：不在芯片在心跳 阿里核心高管齐聚云谷论教育

2026年GEO优化服务商Top3推荐：商家AI搜索流量布局指南

中国AI产品创新提速 美图RoboNeo登顶巴西App Store分类榜

全国人大代表吴丰礼：建议试点粤港澳大湾区AI制度创新，夯实具身智能工业数据基建

头部酒企新春首课聚焦AI：不转型就出局

千问持续投入AI办事 春节完成2亿笔真实订单

追觅科技在浙江新设智能科技公司，注册资本2000万元

霍尔木兹海峡受阻 丰田被迫减产4万辆汽车

推荐专栏

爱力方

机器人大讲堂

打印纸竟能劫持自动驾驶视觉语言模型安全漏洞曝光

多模态大模型最新评测结果公布 Gemini-3-Pro稳居榜首国产模型豆包、商汤表现亮眼 Qwen3-VL成为首个开源高分模型

斯坦福推出图书馆机器人两周完成五人九月工作量 VLA识别准确率提升一倍

Nvidia 发布新 AI 模型Alpamayo-R1，推动自动驾驶研究向前迈进

消费者购车洽谈遭录音奥迪门店称厂家要求折射经销商返利考核压力

马云谈AI时代胜负关键：不在芯片在心跳阿里核心高管齐聚云谷论教育

中国AI产品创新提速美图RoboNeo登顶巴西App Store分类榜

千问持续投入AI办事春节完成2亿笔真实订单

霍尔木兹海峡受阻丰田被迫减产4万辆汽车