TAG:多模态模型
国产算力与自主创新架构助力GLM-Image实现多模态SOTA性能,全链路适配昇腾芯片
智谱AI与华为联合开源GLM-Image多模态大模型,该模型采用自主创新架构,在图像生成性能上达到国际领先水平,并首次实现从数据处理到推理全流程基于国产昇腾芯片和MindSpore框架,标志着国产AI生态在自主可控与高性能应用上迈出关键一步。
具身智能落地难,根源在于AI无法理解场景
本文探讨了具身智能领域面临的核心挑战——AI系统难以真正理解复杂场景。文章介绍了千诀科技在ICCV 2025发表的OURO框架,该框架通过自我进化的方式,让模型学会拆解场景、构建层次化结构,从而提升对物体关系和行为逻辑的理解能力。这一突破为机器人从被动执行转向主动预判提供了新思路。
月之暗面新模型Kiwi-do亮相 AI界震动
月之暗面在完成35亿融资后,其神秘新模型“Kiwi-do”在LmArena平台亮相,训练数据截至2025年1月,在视觉物理推理测试中表现卓越,被猜测为多模态模型K2-VL。该模型展示了强大的视觉与语言融合能力,预计将推动文档解析、仪表盘分析等商业应用,引发AI界广泛关注。
Meta宣布2026上半年推出Mango系列下一代模型
Meta计划在2026年上半年发布下一代人工智能模型系列,包括多模态模型Mango和大型语言模型Avocado,旨在统一图像与视频的生成理解并提升编码能力。公司通过人才争夺和战略合作应对谷歌、OpenAI的竞争,推动其“个人超级智能”愿景的实现。
火山引擎推出AI节省计划 豆包大模型降价47%
火山引擎在FORCE原动力大会上宣布多项AI产品更新,包括豆包视觉模型升级、视频生成模型Seedance1.5Pro发布,以及豆包助手API上线。同时推出AI节省计划,通过阶梯折扣最高可降低47%的大模型使用成本,加速AI在企业端的规模化应用。
深大团队提升机器人导航成功率至72.5%
深圳大学李坚强教授团队联合多所高校提出视觉-语言导航新框架UNeMo,通过多模态世界模型与分层预测反馈机制,让机器人能预测未来视觉状态并做出更智能的导航决策。该框架在资源消耗大幅降低的同时,在未知环境中的导航成功率可达72.5%,推理效率提升40%,尤其在长轨迹导航中表现突出,相关论文已入选AAAI2026。
全球首款原生多模态架构NEO问世,实现视觉语言无缝融合
文章介绍了全球首个原生多模态架构NEO的诞生,它由国内研究团队开发,通过统一模型设计从根本上融合视觉与语言,而非传统拼接方式。NEO凭借原生图块嵌入、三维旋转位置编码和原生多头注意力三大技术突破,在少量数据下实现性能超越,标志着AI从规模扩张转向智能架构的新方向。
可灵AI上线主体库 模型获记忆能力角色永不变脸
快手旗下可灵AI正式发布「主体库」功能,为O1多模态视频模型赋予长期记忆能力。用户上传单张角色图即可生成3D视角补全和多光线变体,支持跨场景一键调用,主体一致性超过96%,有效解决AI角色变脸问题。该功能适用于影视预览、跨境电商和虚拟偶像等领域,显著降低制作成本,推动短视频进入一致性时代。
DeepMind CEO展望2026年AI三大趋势
DeepMind首席执行官德米斯・哈萨比斯在Axios AI+峰会上预测,2026年AI领域将迎来三大关键发展:多模态模型将提升对复杂内容的理解与生成能力,AI代理接近自主处理复杂任务,以及互动视频世界模型为用户提供沉浸式体验。这些趋势预示着AI技术向更智能、更实用的方向迈进。
KlingAI数字人2.0上线爆火 五分钟一键生成唱跳视频
快手可灵AI发布数字人模型Avatar2.0,用户只需一张照片和一段音频,即可一键生成5分钟唱歌视频。该模型通过多模态导演模块实现情感与动作的自然表达,告别传统数字人的'面瘫'感,支持高清流畅输出,已上线免费试用。这一突破将重塑短视频、电商营销等内容创作生态,降低专业视频制作门槛。
快手可灵2.6全量上线 字节Seedream4.5发布 DeepSeek连发两款新模型
本期AI日报汇总了AI领域的最新动态:快手可灵2.6实现音画同步生成;字节Seedream 4.5提升多图一致性;智源研究院推出世界模型Emu3.5;小米公布AI战略路线图;DeepSeek发布两款新模型。内容涵盖多模态生成、模型升级、行业应用与安全研究,为开发者提供全面的技术趋势洞察。
商汤开源NEO架构:数据量锐减九成,多模态模型性能仍领先
商汤科技联合南洋理工大学S-Lab发布原生多模态架构NEO,通过全新设计实现像素到Token的连续映射,数据需求仅为业界平均的1/10,在多个基准测试中取得SOTA性能,并开源模型权重与训练脚本。
视频AI的“关键一跃”:快手Kling Omni本周发布,用2分钟原生音频树立长视频生成新标杆
快手科技本周正式发布Kling Omni多模态视频基础模型,该模型通过统一的多模态视觉语言框架,提供导演级精准控制能力,支持文本、图像和视频多输入参考。相比前代产品,Kling Omni可生成长达2分钟的连续视频,并集成了原生音频同步技术,实现帧级精确匹配。目前该系列已服务全球4500万用户和2万家企业,被视为AI视频领域的革命性跃进,将推动影视、广告和游戏产业的高效创作。
快手旗舰 Keye-VL-671B-A37B 重磅发布,多模态推理能力实现新突破
快手发布新一代旗舰多模态模型Keye-VL-671B-A37B,该模型具备'善看会想'特性,在通用视觉理解、视频分析和数学推理等核心能力上实现突破。采用DeepSeek-V3-Terminus作为基座,通过三阶段预训练和系统优化,显著提升了多模态理解与复杂推理能力。未来将强化多模态Agent能力,支持工具调用和深度思考,推动多模态AI向更通用、可靠的方向发展。
Google Gemini 3 Pro预览版现身Vertex AI:支持百万级上下文窗口
谷歌Gemini 3 Pro预览版在Vertex AI平台被发现,支持高达100万token的上下文窗口,预计11月正式发布。该模型在标准层级支持20万token,高级层级扩展至100万,优化了多模态处理和输入输出比率,适用于长文档分析、金融建模和自动化代理系统等企业级应用,性能预计超越GPT-4o。