TAG:多模态模型

Seedance2.0定价每秒1元 AI应用拐点加速

Seedance2.0定价每秒1元 AI应用拐点加速

火山引擎公布Seedance2.0价格,视频生成成本降至每秒约1元,标志着AI视频行业进入“秒元时代”。该模型在多项国际评测中领先,通过技术升级实现高质量低成本的视频生成,有望加速AI视频规模化商用拐点的到来,为动画影视、数字内容等领域带来显著的降本增效。

2026-03-05 11:27
0
0

DeepSeek V4即将发布 多模态模型提升AI智能生成

DeepSeek V4即将发布 多模态模型提升AI智能生成

DeepSeek即将发布全新的多模态大语言模型V4,原生支持图片、视频和文本的AI生成能力。该模型不仅填补了国内低成本开源模型的市场空白,还通过与华为、寒武纪合作进行硬件优化,推动本土半导体发展。V4的发布将极大拓展AI在创作、广告和教育等领域的应用潜力,助力中国在全球AI领域的竞争力提升。

2026-02-28 14:53
0
0

Seedance 2.0 发布:多模态架构实现音画同步创作

Seedance 2.0 发布:多模态架构实现音画同步创作

字节跳动Seed团队正式发布新一代视频创作模型Seedance 2.0,采用统一多模态音视频联合生成架构,支持15秒高质量多镜头输出与音画同步。该模型在复杂运动场景的物理还原、多模态参考输入以及视频编辑延展能力上实现突破,旨在降低影视、广告等领域的工业级创作门槛。

2026-02-12 16:18
11
0

字节Seedance2.0发布引争议 紧急暂停真人参考功能

字节Seedance2.0发布引争议 紧急暂停真人参考功能

字节跳动发布多模态视频生成大模型Seedance2.0,其强大性能引发关注,但科技博主Tim实测发现模型能未经授权克隆其音色,引发肖像隐私与AI伦理争议。字节紧急暂停真人参考功能,强调尊重创意边界,事件凸显AI发展中技术奇点与治理挑战并存。

2026-02-10 10:58
0
0

国产算力与自主创新架构助力GLM-Image实现多模态SOTA性能,全链路适配昇腾芯片

国产算力与自主创新架构助力GLM-Image实现多模态SOTA性能,全链路适配昇腾芯片

智谱AI与华为联合开源GLM-Image多模态大模型,该模型采用自主创新架构,在图像生成性能上达到国际领先水平,并首次实现从数据处理到推理全流程基于国产昇腾芯片和MindSpore框架,标志着国产AI生态在自主可控与高性能应用上迈出关键一步。

2026-01-14 10:58
0
0

具身智能落地难,根源在于AI无法理解场景

具身智能落地难,根源在于AI无法理解场景

本文探讨了具身智能领域面临的核心挑战——AI系统难以真正理解复杂场景。文章介绍了千诀科技在ICCV 2025发表的OURO框架,该框架通过自我进化的方式,让模型学会拆解场景、构建层次化结构,从而提升对物体关系和行为逻辑的理解能力。这一突破为机器人从被动执行转向主动预判提供了新思路。

机器人大讲堂 2026-01-09 15:33
0
0

月之暗面新模型Kiwi-do亮相 AI界震动

月之暗面新模型Kiwi-do亮相 AI界震动

月之暗面在完成35亿融资后,其神秘新模型“Kiwi-do”在LmArena平台亮相,训练数据截至2025年1月,在视觉物理推理测试中表现卓越,被猜测为多模态模型K2-VL。该模型展示了强大的视觉与语言融合能力,预计将推动文档解析、仪表盘分析等商业应用,引发AI界广泛关注。

2026-01-05 17:38
9
0

Meta宣布2026上半年推出Mango系列下一代模型

Meta宣布2026上半年推出Mango系列下一代模型

Meta计划在2026年上半年发布下一代人工智能模型系列,包括多模态模型Mango和大型语言模型Avocado,旨在统一图像与视频的生成理解并提升编码能力。公司通过人才争夺和战略合作应对谷歌、OpenAI的竞争,推动其“个人超级智能”愿景的实现。

爱力方 2025-12-19 14:31
4
0

火山引擎推出AI节省计划 豆包大模型降价47%

火山引擎推出AI节省计划 豆包大模型降价47%

火山引擎在FORCE原动力大会上宣布多项AI产品更新,包括豆包视觉模型升级、视频生成模型Seedance1.5Pro发布,以及豆包助手API上线。同时推出AI节省计划,通过阶梯折扣最高可降低47%的大模型使用成本,加速AI在企业端的规模化应用。

2025-12-18 17:45
0
0

深大团队提升机器人导航成功率至72.5%

深大团队提升机器人导航成功率至72.5%

深圳大学李坚强教授团队联合多所高校提出视觉-语言导航新框架UNeMo,通过多模态世界模型与分层预测反馈机制,让机器人能预测未来视觉状态并做出更智能的导航决策。该框架在资源消耗大幅降低的同时,在未知环境中的导航成功率可达72.5%,推理效率提升40%,尤其在长轨迹导航中表现突出,相关论文已入选AAAI2026。

2025-12-10 15:41
7
0

全球首款原生多模态架构NEO问世,实现视觉语言无缝融合

全球首款原生多模态架构NEO问世,实现视觉语言无缝融合

文章介绍了全球首个原生多模态架构NEO的诞生,它由国内研究团队开发,通过统一模型设计从根本上融合视觉与语言,而非传统拼接方式。NEO凭借原生图块嵌入、三维旋转位置编码和原生多头注意力三大技术突破,在少量数据下实现性能超越,标志着AI从规模扩张转向智能架构的新方向。

2025-12-09 18:08
1
0

可灵AI上线主体库 模型获记忆能力角色永不变脸

可灵AI上线主体库 模型获记忆能力角色永不变脸

快手旗下可灵AI正式发布「主体库」功能,为O1多模态视频模型赋予长期记忆能力。用户上传单张角色图即可生成3D视角补全和多光线变体,支持跨场景一键调用,主体一致性超过96%,有效解决AI角色变脸问题。该功能适用于影视预览、跨境电商和虚拟偶像等领域,显著降低制作成本,推动短视频进入一致性时代。

爱力方 2025-12-08 15:21
11
0

DeepMind CEO展望2026年AI三大趋势

DeepMind CEO展望2026年AI三大趋势

DeepMind首席执行官德米斯・哈萨比斯在Axios AI+峰会上预测,2026年AI领域将迎来三大关键发展:多模态模型将提升对复杂内容的理解与生成能力,AI代理接近自主处理复杂任务,以及互动视频世界模型为用户提供沉浸式体验。这些趋势预示着AI技术向更智能、更实用的方向迈进。

2025-12-08 11:25
9
0

KlingAI数字人2.0上线爆火 五分钟一键生成唱跳视频

KlingAI数字人2.0上线爆火 五分钟一键生成唱跳视频

快手可灵AI发布数字人模型Avatar2.0,用户只需一张照片和一段音频,即可一键生成5分钟唱歌视频。该模型通过多模态导演模块实现情感与动作的自然表达,告别传统数字人的'面瘫'感,支持高清流畅输出,已上线免费试用。这一突破将重塑短视频、电商营销等内容创作生态,降低专业视频制作门槛。

爱力方 2025-12-05 15:55
16
0

快手可灵2.6全量上线 字节Seedream4.5发布 DeepSeek连发两款新模型

快手可灵2.6全量上线 字节Seedream4.5发布 DeepSeek连发两款新模型

本期AI日报汇总了AI领域的最新动态:快手可灵2.6实现音画同步生成;字节Seedream 4.5提升多图一致性;智源研究院推出世界模型Emu3.5;小米公布AI战略路线图;DeepSeek发布两款新模型。内容涵盖多模态生成、模型升级、行业应用与安全研究,为开发者提供全面的技术趋势洞察。

2025-12-04 17:19
1
0