TAG:视频生成
告别视频扭曲与“AI电音”:巨人网络多模态模型让虚拟世界更真实
巨人网络AI Lab联合清华大学和西北工业大学发布三项多模态生成技术:YingVideo-MV实现音乐驱动视频生成并消除人物畸变,YingMusic-SVC提供零样本歌声转换确保真实歌曲可用,YingMusic-Singer支持任意歌词生成自然歌声。这些开源技术显著提升了音视频创作的质量与灵活性。
当训练数据成为“皇帝的新衣”:AI生成的视频,会让机器人永远学不会走路吗?
DeepMind联合多所高校推出PhysWorld框架,通过视频生成与物理世界建模的深度融合,让机器人仅凭单张图像和文字指令就能观看生成视频学习复杂操作。该框架解决了生成视频缺乏物理可行性的核心难题,无需真实机器人演示数据即可实现零样本技能迁移,大幅降低机器人学习成本。
腾讯发布全新视频生成模型 HunyuanVideo1.5,降低视频创作门槛
腾讯混元大模型团队发布全新视频生成模型HunyuanVideo1.5,这款基于DiT架构的轻量级模型参数量达8.3B,支持文生视频和图文结合生成动态视频。模型采用SSTA稀疏注意力机制,仅需14G显存即可流畅运行,大幅降低视频创作门槛。支持中英文输入及多种风格,在运动连贯性和语义遵循方面达到商用水平,已在元宝平台、Hugging Face和GitHub开放体验。
Gemini Veo 3.1发布:支持三元素视频同步生成
谷歌Gemini Veo 3.1视频模型推出全新'Ingredients to Video'模式,支持同时上传三张参考图分别提取人物、场景与风格特征,融合生成8秒1080p高质量视频。该功能保持跨帧角色一致性、光影连贯性及原生环境音,支持首尾帧控制和视频延伸,为创作者提供更精准的视频合成体验。
NotebookLM开放内容生成限制:《辛普森一家》风格视频功能引发版权争议
Google的AI工具NotebookLM最新更新取消了风格限制,允许用户通过任意文本提示生成视频摘要,甚至能模仿《辛普森一家》等受版权保护的视觉风格。然而,工具在生成内容中加入自身版权标识的行为引发争议,迪士尼等版权方可能对此敏感,AI生成内容与版权保护的冲突正持续升温。
Character AI联合耶鲁大学发布Ovi:实现音画同步的视频生成模型
Character AI与耶鲁大学联合推出开源项目Ovi,这是一项革命性的音画同步视频生成技术。通过创新的双骨干交叉模态融合架构,Ovi实现了音频和视频的并行处理与实时交互,彻底解决了传统方法中音画不同步的问题。该技术采用扩散变换器架构和旋转位置嵌入技术,确保嘴唇运动与发音等细节的精确匹配,为高质量视频生成提供了全新解决方案。
字节发布InfinityStar框架:视频生成效率提升至58秒
字节跳动推出InfinityStar框架,将5秒720p视频生成时间缩短至仅58秒,显著提升视频生成效率。该框架采用时空金字塔模型,有效解耦外观与运动信息,提高生成质量,并通过知识继承策略降低训练成本。支持图像生成、文本生成视频等多种视觉任务,标志着视觉生成技术的重要进步。
OpenAI推Sora2重磅更新,视频时长翻倍+首周下载量反超ChatGPT
OpenAI宣布对视频生成模型Sora2进行重大升级,视频生成时长提升至15-25秒,新增故事板工具和音频生成功能,物理模拟精度显著优化。Sora应用首周下载量达62.7万次,超越ChatGPT同期表现,登顶美国App Store排行榜,标志着AI视频创作从专业工具向大众平台转型的重要突破。