TAG:视频生成
谷歌扩展AI视频工具Flow功能:支持竖屏及8秒4K视频生成
谷歌宣布扩大AI视频工具Flow的访问权限,向商务、企业及教育版Workspace用户开放。该工具搭载Veo3.1模型,支持根据文本或图像生成8秒4K视频,并新增竖屏支持,内置专业编辑功能如光效调整和物体编辑。它还集成音频生成和图像生成器,实现从静态创意到动态影像的无缝衔接。
可灵AI月入1.4亿海外“屠榜” 国内竞争加剧视频生成大战正酣
可灵AI在2025年12月实现月收入突破1.4亿元,商业化进程显著加速。其新功能在海外市场引发下载热潮,推动快手股价上涨。然而,国内视频生成赛道竞争日趋激烈,阿里云、火山引擎等巨头纷纷入局。文章分析了可灵AI的收入结构、技术迭代及未来面向C端用户的拓展方向,揭示了AI视频生成领域的商业动态与行业前景。
MIT与UC伯克利团队研发LVP模型 机器人一瞥即可完成新任务
MIT、UC伯克利和哈佛联合团队开发的LVP模型,通过视频生成技术让机器人无需专门训练即可执行陌生任务。该模型利用140万条视频数据学习人类动作逻辑,并转化为机器人控制指令,在零样本测试中成功完成多种复杂任务,突破了传统机器人依赖特定动作数据的限制。
Lemon Slice 获1050万美元融资加速AI聊天机器人视频化发展
数字头像生成公司Lemon Slice获得1050万美元种子融资,旨在通过其Lemon Slice-2模型为AI聊天机器人添加视频层,仅需一张图片即可生成动态数字头像。该技术支持人类和非人类角色,集成语音功能,并计划应用于教育、电商等领域,同时强调安全措施防止未经授权的克隆。
蓝色光标深度接入豆包大模型,整合大语言与视频生成能力
蓝色光标宣布与字节跳动豆包大模型深度合作,整合大语言模型与视频生成能力,打造覆盖文案、脚本、视频到投放的全链路智能营销引擎。此举标志着国产大模型技术从验证阶段进入商业应用深水区,将推动AI在内容创作、品牌传播等场景的规模化落地,提升营销行业效率与创意产能。
Luma推出Ray3 Modify实现AI视频编辑新突破
Luma AI发布Ray3 Modify模型,实现AI视频编辑重大突破。该技术能在保留演员原始表演细节(如表情、动作、情感)的前提下,对实拍视频进行高保真修改,支持一键换装、换场景和生成平滑过渡镜头,解决了传统AI工具难以控制细节的痛点,为影视、广告等创意行业带来工作流革新。
谷歌推出Gemini视频生成AI检测功能
谷歌在Gemini应用中新增视频生成AI检测功能,帮助用户验证视频内容是否由谷歌AI技术生成。这一举措旨在提升内容透明度,应对AI生成内容带来的真实性挑战,同时Gemini平台还提供多种AI工具增强用户的视频创作与编辑体验。
豆包大模型日均调用量超50万亿 火山引擎推出两大新品推动AI架构升级
火山引擎在FORCE原动力大会上宣布,豆包大模型日均Tokens使用量突破50万亿,位居中国第一、全球第三。会上发布了豆包大模型1.8和视频生成模型Seedance1.5pro,强化了多模态Agent能力和音画同步生成。同时推出业内首个“AI节省计划”,最高可为企业节省47%使用成本,助力AI规模化落地。
联想百应智能体联合通义万相2.6推动企业AI营销高效增长
联想百应智能体深度接入阿里通义万相2.6视频生成模型,成为国内首个落地原生视频生成能力的L3级企业AI服务智能体。此次升级将前沿视频生成技术与智能体自主规划能力深度融合,为企业提供零门槛、高品质的视频创作与轻定制AI营销解决方案,助力中小企业以低成本实现专业级视频内容生产,推动AI营销全链路场景升级。
Runway推出GWM-1通用世界模型,通过像素预测构建可推理虚拟世界
Runway公司发布通用世界模型GWM-1,通过逐帧像素预测构建动态仿真环境,理解物理规律与时间演化。该模型分为GWM-Worlds、GWM-Robotics和GWM-Avatars三个分支,分别应用于交互式虚拟世界生成、机器人训练和数字人创建,旨在为具身智能和通用人工智能提供核心基础设施。同时,Runway升级了Gen4.5视频生成模型,增强音频生成和多镜头编辑能力,推动AI视频生成迈向工业级应用。
智谱开源周落幕 四项视频生成技术开放
智谱多模态开源周圆满落幕,团队开源了四项视频生成核心技术:SCAIL、RealVideo、Kaleido和SSVAE。这些技术分别针对影视级角色动画生成、实时流式视频生成、多主体一致性生成以及训练效率优化,旨在解决视频生成领域的关键难题,推动AI视频技术的发展与创新。
商汤Seko 2.0发布:一句话生成百集动画,AI制作成本低至奶茶价
商汤科技发布Seko 2.0 AI视频Agent,用户仅需一句话创意即可一键生成最高100集剧情连贯、人物一致的动画短剧,制作成本低至一杯奶茶钱。该产品采用多剧集记忆架构,支持多种风格和比例,实测12分钟即可生成高质量成片,大幅降低动画制作门槛。
可灵AI上线主体库 模型获记忆能力角色永不变脸
快手旗下可灵AI正式发布「主体库」功能,为O1多模态视频模型赋予长期记忆能力。用户上传单张角色图即可生成3D视角补全和多光线变体,支持跨场景一键调用,主体一致性超过96%,有效解决AI角色变脸问题。该功能适用于影视预览、跨境电商和虚拟偶像等领域,显著降低制作成本,推动短视频进入一致性时代。
告别视频扭曲与“AI电音”:巨人网络多模态模型让虚拟世界更真实
巨人网络AI Lab联合清华大学和西北工业大学发布三项多模态生成技术:YingVideo-MV实现音乐驱动视频生成并消除人物畸变,YingMusic-SVC提供零样本歌声转换确保真实歌曲可用,YingMusic-Singer支持任意歌词生成自然歌声。这些开源技术显著提升了音视频创作的质量与灵活性。
当训练数据成为“皇帝的新衣”:AI生成的视频,会让机器人永远学不会走路吗?
DeepMind联合多所高校推出PhysWorld框架,通过视频生成与物理世界建模的深度融合,让机器人仅凭单张图像和文字指令就能观看生成视频学习复杂操作。该框架解决了生成视频缺乏物理可行性的核心难题,无需真实机器人演示数据即可实现零样本技能迁移,大幅降低机器人学习成本。