TAG:多模态AI
DeepSeek V4即将发布 多模态模型或重塑AI格局
DeepSeek即将发布全新多模态模型V4,具备图像、视频和文本生成能力,并全面支持国产算力。同时推出的V4 Lite测试版拥有2000亿参数和100万tokens上下文窗口,原生多模态架构显著提升处理能力。这一系列技术突破将加速AI与本土芯片的融合,为人工智能领域带来新的发展动力。
全球视频大模型竞技:快手可灵3.0夺冠,7款模型跻身前15,影视级AI时代来临
全球权威AI基准测试机构Artificial Analysis最新排名显示,快手自研的可灵3.0 Pro模型凭借卓越的视觉质量与逻辑一致性,登顶文生视频赛道全球第一。中国AI展现出集团军优势,前15名中可灵家族占据7席,标志着AI视频生成技术已从玩具质变为生产力工具,正式开启影视级AI时代。
字节调整视频生成服务应对迪士尼侵权指控
字节跳动日本公司宣布调整其视频生成AI模型Seedance2.0的服务,以应对版权侵权风险。该模型因能生成迪士尼、《奥特曼》等未经授权的IP形象视频而受到指控,日本政府已要求企业纠正。事件凸显了生成式AI在技术突破与版权保护间的博弈,数据合规性正成为产品生存的核心标准。
谷歌推出新Flow:整合Nano Banana模型与Veo视频工作流
谷歌于2026年2月25日宣布对其AI创意工作室Flow进行重大升级,深度整合了Whisk与ImageFX项目,并集成了全新的Nano Banana图像模型。此次更新打通了从图像生成到Veo视频制作的工作流,新增了局部编辑、镜头控制等工具,旨在构建统一的多模态创意平台,强化其在AI创意领域的生态竞争力。
字节发布大模型,实力亮相
字节跳动于2月14日正式发布豆包大模型2.0,包含Pro、Lite、Mini三款通用Agent模型和Code模型,针对不同业务场景优化。Pro版对标GPT 5.2与Gemini 3 Pro,具备深度推理能力;Code版专为编程设计。模型在图片识别、多模态理解等方面表现优秀,已上线豆包App及火山引擎API服务。同时,视频生成模型Seedance 2.0也已发布,支持原声音画同步。
字节跳动推出豆包大模型2.0对标GPT 5.2与Gemini 3 Pro
字节跳动于2月14日正式发布豆包大模型2.0,该模型围绕大规模生产环境需求进行优化,具备高效推理、多模态理解和复杂指令执行能力。其Pro版本对标GPT 5.2与Gemini 3 Pro,专为深度推理与长链路任务设计,同时提供Lite、Mini及Code版以满足不同场景需求。模型已上线豆包App及火山引擎API服务。
Seedance2.0上线内测引发海内外关注
字节跳动新一代AI视频生成模型Seedance2.0开启内测,凭借其多模态创作、自动运镜和单指令生成连贯多场景的突破性能力,在全球引发热议。该模型能根据文字或图像生成带原生音轨的多镜头视频,效果逼真如好莱坞大片,大幅降低了专业视频创作门槛,展现了国内AI技术的领先实力。
字节新AI产品Seedance2.0引爆海内外 哪些行业将被颠覆?
字节跳动推出的Seedance2.0 AI视频生成模型近期引发广泛关注,它能够根据文本或图像在60秒内生成带有原生音频的多镜头序列视频,并具备独特的连贯叙事能力。该模型在分镜、运动控制等方面表现突出,被业内视为可能颠覆影视、短剧等内容创作行业的重要技术突破。
语音AI巨头ElevenLabs获5亿美元融资 估值升至110亿美元
全球领先的语音AI公司ElevenLabs宣布完成5亿美元融资,估值飙升至110亿美元,相比一年前增长超三倍。公司年经常性收入已达3.3亿美元,展现出强劲的商业化能力。本轮融资由红杉资本领投,资金将用于产品研发、全球市场扩张以及从语音模型向多模态智能代理的战略升级,旨在革新人机交互方式。
上海AI实验室开源全球最大科学多模态模型Intern-S1-Pro
上海人工智能实验室开源了全球最大的科学多模态模型Intern-S1-Pro,拥有万亿参数,基于创新的SAGE架构和混合专家技术,在数理推理和科研任务中达到国际领先水平,标志着从模型架构到国产算力自主技术的完整突破。
三星发布2026年多模态AI智能眼镜计划
三星宣布将于2026年推出多模态AI智能眼镜,重点从传统显示转向深度理解现实环境。该设备通过融合视觉、语音等多模态输入,实现AI与物理世界的沉浸式交互,旨在成为继智能手机后的下一代核心交互终端。此举标志着三星正式加入与苹果、Meta在XR领域的竞争。
三星官宣2026年发布AR眼镜 主打多模态AI
三星在2025年第四季度财报电话会议上正式宣布,其下一代AR眼镜将于2026年发布。这款眼镜将不再仅仅是显示设备,而是进化为一个“多模态AI载体”,核心卖点在于提供深度沉浸的智能辅助体验,结合语音、视觉等多种交互方式。产品设计轻便,外观接近普通眼镜,并可能搭载高通AR1芯片、1200万像素摄像头等硬件。此举是三星扩展现实(XR)生态布局的关键一步,旨在打造手机之外的第二个AI交互核心入口。
灵光App全面登陆12大应用市场 加速鸿蒙生态布局
蚂蚁集团推出的全模态AI助手灵光App鸿蒙版已正式登陆AppGallery,集对话、AIGC内容创作和闪应用等功能于一体,为3200万鸿蒙用户提供前沿的多模态AI体验。该应用支持将抽象知识可视化并快速生成个性化小工具,目前已覆盖iOS、华为、小米等12大应用市场,自上线以来用户已创建1200万个闪应用,未来还将持续升级功能。
鸿蒙版灵光App上架 多模态AI赋能鸿蒙生态
蚂蚁集团推出的鸿蒙版灵光App已登陆AppGallery应用市场,作为业内首个全代码生成多模态内容的AI助手,集对话、AIGC创作和闪应用于一体。它通过可视化功能将抽象知识转化为图像,支持图片深度识别与追问,并能快速生成可交互的生活小应用,满足商务、学生、设计师等不同群体的需求,为鸿蒙用户带来前沿的智能体验。