TAG:多模态大模型

多模态大模型最新评测结果公布 Gemini-3-Pro稳居榜首 国产模型豆包、商汤表现亮眼 Qwen3-VL成为首个开源高分模型

多模态大模型最新评测结果公布 Gemini-3-Pro稳居榜首 国产模型豆包、商汤表现亮眼 Qwen3-VL成为首个开源高分模型

SuperCLUE-VLM发布2025年12月多模态视觉语言模型评测榜单,谷歌Gemini-3-Pro以83.64分断层领先。国产模型中,商汤SenseNova V6.5Pro和字节豆包大模型表现亮眼,分别位列第二、第三。阿里Qwen3-VL成为首个总分突破70分的开源模型,推动技术民主化。榜单揭示了多模态竞赛进入实用化新阶段,视觉推理仍是关键瓶颈。

2025-12-31 11:36
0
0

商汤发布多剧集生成智能体Seko2.0 国产AI芯片打通多模态AIGC全链路

商汤发布多剧集生成智能体Seko2.0 国产AI芯片打通多模态AIGC全链路

商汤科技发布全球首个多剧集视频生成智能体Seko2.0,实现角色、场景和风格高度一致的多集短视频生成,突破剧情连贯性与视觉统一性技术难题。该系统基于自研多模态大模型,并全面适配国产寒武纪AI芯片,首次打通从语言模型到视频生成的国产算力全链路,为短剧、广告等内容创作提供规模化AI生产方案。

爱力方 2025-12-15 18:02
8
0

前字节视觉AI负责人潘欣加盟美团 执掌多模态创新业务

前字节视觉AI负责人潘欣加盟美团 执掌多模态创新业务

前字节跳动视觉大模型AI平台负责人潘欣已加盟美团,出任多模态AI创新业务负责人,直接向技术委员会汇报。他将负责将多模态大模型引入即时配送全链路,通过优化路径规划提升配送效率。美团计划借助AI提升外卖业务人效、降低能耗,在算法端构建竞争优势。

爱力方 2025-12-11 17:47
2
0

智源研究院发布最强多模态世界模型Emu3.5 可预测真实世界下一秒

智源研究院发布最强多模态世界模型Emu3.5 可预测真实世界下一秒

北京智源人工智能研究院发布新一代多模态大模型Emu3.5,通过统一建模图像、文本和视频,实现世界级理解。模型核心突破在于Next State Prediction任务,能预测真实世界的下一秒状态,从生成内容进化到模拟物理规律。这标志着AI从‘像素搬运工’迈向‘世界模拟器’,有望应用于机器人、自动驾驶等高级场景。

爱力方 2025-12-04 11:29
15
0

北京交大与帝国理工在边缘云部署语义专线 实现楼宇间VIP级带宽保障

北京交大与帝国理工在边缘云部署语义专线 实现楼宇间VIP级带宽保障

北京交通大学与帝国理工学院合作研发的6G语义通信系统,通过多模态大语言模型框架实现智能带宽分配。该系统能在10毫秒内识别用户意图,为关键数据建立VIP传输通道,使AR导航、全息会议等应用在弱网环境下仍能保持高质量传输。实验显示端到端时延降低36%,为未来6G网络的高密度体验场景奠定技术基础。

2025-11-28 15:43
3
0

超级小爱AI大模型“随心修图”上线:一句话秒出大片

超级小爱AI大模型“随心修图”上线:一句话秒出大片

小米超级小爱AI推出v7.8.50版本更新,新增'随心修图'功能,用户通过自然语言指令即可自动完成照片编辑。支持色彩增强、背景虚化、风格滤镜等处理,内置7B多模态大模型可在本地5秒内完成推理,实现发丝级抠图等专业效果。目前适配Xiaomi HyperAI机型,非适配机型可通过超级小爱App使用。

2025-11-17 14:34
4
0

“姚班”的物理世界远征:原力灵机获阿里独家押注,一场关于“具身智能”的闪电战

“姚班”的物理世界远征:原力灵机获阿里独家押注,一场关于“具身智能”的闪电战

原力灵机作为具身智能领域的黑马企业,在短短几个月内获得近12亿元融资,其中阿里巴巴独家投资数亿元A+轮。公司由清华姚班学霸唐文斌、范浩强等AI精英创立,凭借自主研发的VLA和MMLA多模态具身智能模型,在感知-认知-记忆库技术上实现突破,性能超越主流基线。团队还斩获ICRA 2025顶会双金,技术实力备受阿里、蔚来等资本青睐,致力于推动智能机器人和通用人工智能的物理世界落地。

爱力方 2025-11-17 11:59
3
0

北京人形开源最新VLM模型,推动具身智能再迈关键一步 !

北京人形开源最新VLM模型,推动具身智能再迈关键一步 !

北京人形机器人创新中心开源具身智能VLM模型Pelican-VL 1.0,这是目前全球性能最强的开源具身多模态大模型,性能超越GPT-5同类模型15.79%。该模型采用创新的DPPO训练范式,仅用其他模型1/10的数据量就实现最优性能,可大幅提升机器人在商业服务、工业作业等场景中的视觉-语言感知和任务规划能力。

机器人大讲堂 2025-11-14 11:20
5
0

美团开源多模态大模型LongCat-Flash-Omni:实时交互性能突破

美团开源多模态大模型LongCat-Flash-Omni:实时交互性能突破

美团开源多模态大模型LongCat-Flash-Omni在多项基准测试中超越闭源竞品,实现开源即SOTA突破。该模型支持文本、语音、图像、视频的实时融合处理,具备跨模态精准推理能力,在噪声环境语音识别和模糊图像理解方面表现优异。通过端到端统一架构和Flash推理引擎优化,在消费级GPU上即可实现近乎零延迟的交互体验。

爱力方 2025-11-05 15:13
0
0

智源研究院发布悟界Emu3.5,开启多模态世界大模型新纪元

智源研究院发布悟界Emu3.5,开启多模态世界大模型新纪元

智源研究院发布Emu3.5多模态世界大模型,通过自回归架构实现'Next-State Prediction',具备10万亿token训练规模和34B参数量。该模型突破性地融合了多模态理解与生成能力,能够执行复杂任务规划、动态世界模拟和具身交互操作,为通用人工智能发展提供了可度量的实践路径,开启了从数字世界迈向物理世界的新纪元。

2025-10-30 16:27
13
0

优必选亮相IROS 2025,展示多场景最新技术与应用成果

优必选亮相IROS 2025,展示多场景最新技术与应用成果

优必选在IROS 2025国际机器人大会上展示了多项创新成果,包括入选论文的人形双目视觉技术、自研多模态大模型Thinker,以及与北京人形机器人创新中心联合展出的全尺寸人形机器人产品。这些技术突破为人形机器人在工业场景的规模化应用提供了核心支撑,同时通过开源工具链推动全球开发者生态建设。

机器人大讲堂 2025-10-21 16:43
0
0