TAG:多模态大模型
智源研究院发布最强多模态世界模型Emu3.5 可预测真实世界下一秒
北京智源人工智能研究院发布新一代多模态大模型Emu3.5,通过统一建模图像、文本和视频,实现世界级理解。模型核心突破在于Next State Prediction任务,能预测真实世界的下一秒状态,从生成内容进化到模拟物理规律。这标志着AI从‘像素搬运工’迈向‘世界模拟器’,有望应用于机器人、自动驾驶等高级场景。
北京交大与帝国理工在边缘云部署语义专线 实现楼宇间VIP级带宽保障
北京交通大学与帝国理工学院合作研发的6G语义通信系统,通过多模态大语言模型框架实现智能带宽分配。该系统能在10毫秒内识别用户意图,为关键数据建立VIP传输通道,使AR导航、全息会议等应用在弱网环境下仍能保持高质量传输。实验显示端到端时延降低36%,为未来6G网络的高密度体验场景奠定技术基础。
超级小爱AI大模型“随心修图”上线:一句话秒出大片
小米超级小爱AI推出v7.8.50版本更新,新增'随心修图'功能,用户通过自然语言指令即可自动完成照片编辑。支持色彩增强、背景虚化、风格滤镜等处理,内置7B多模态大模型可在本地5秒内完成推理,实现发丝级抠图等专业效果。目前适配Xiaomi HyperAI机型,非适配机型可通过超级小爱App使用。
“姚班”的物理世界远征:原力灵机获阿里独家押注,一场关于“具身智能”的闪电战
原力灵机作为具身智能领域的黑马企业,在短短几个月内获得近12亿元融资,其中阿里巴巴独家投资数亿元A+轮。公司由清华姚班学霸唐文斌、范浩强等AI精英创立,凭借自主研发的VLA和MMLA多模态具身智能模型,在感知-认知-记忆库技术上实现突破,性能超越主流基线。团队还斩获ICRA 2025顶会双金,技术实力备受阿里、蔚来等资本青睐,致力于推动智能机器人和通用人工智能的物理世界落地。
北京人形开源最新VLM模型,推动具身智能再迈关键一步 !
北京人形机器人创新中心开源具身智能VLM模型Pelican-VL 1.0,这是目前全球性能最强的开源具身多模态大模型,性能超越GPT-5同类模型15.79%。该模型采用创新的DPPO训练范式,仅用其他模型1/10的数据量就实现最优性能,可大幅提升机器人在商业服务、工业作业等场景中的视觉-语言感知和任务规划能力。
美团开源多模态大模型LongCat-Flash-Omni:实时交互性能突破
美团开源多模态大模型LongCat-Flash-Omni在多项基准测试中超越闭源竞品,实现开源即SOTA突破。该模型支持文本、语音、图像、视频的实时融合处理,具备跨模态精准推理能力,在噪声环境语音识别和模糊图像理解方面表现优异。通过端到端统一架构和Flash推理引擎优化,在消费级GPU上即可实现近乎零延迟的交互体验。
智源研究院发布悟界Emu3.5,开启多模态世界大模型新纪元
智源研究院发布Emu3.5多模态世界大模型,通过自回归架构实现'Next-State Prediction',具备10万亿token训练规模和34B参数量。该模型突破性地融合了多模态理解与生成能力,能够执行复杂任务规划、动态世界模拟和具身交互操作,为通用人工智能发展提供了可度量的实践路径,开启了从数字世界迈向物理世界的新纪元。
优必选亮相IROS 2025,展示多场景最新技术与应用成果
优必选在IROS 2025国际机器人大会上展示了多项创新成果,包括入选论文的人形双目视觉技术、自研多模态大模型Thinker,以及与北京人形机器人创新中心联合展出的全尺寸人形机器人产品。这些技术突破为人形机器人在工业场景的规模化应用提供了核心支撑,同时通过开源工具链推动全球开发者生态建设。