TAG:图像生成
谷歌Flow AI升级:视频绘画特效一站式融合
谷歌宣布升级其实验性AI创作工具Flow,将其打造为一站式AI创意工作室。新版Flow深度集成了图像生成技术Whisk和ImageFX,用户可在同一界面内完成从生成图片到图片转动画的全流程,实现高质量素材生成、风格迁移和动态化编辑,大幅简化创意工作流。
谷歌发布Nano Banana 2图像AI模型 告别中文乱码 画质直达4K
谷歌发布新一代图像生成模型Nano Banana2,基于Gemini3.1Flash Image架构,显著提升理解能力和响应速度。该模型重点修复了中文字符乱码、语义混乱等顽疾,支持生成清晰中文文本,画质从2K提升至4K,增强角色一致性和复杂场景处理能力,将整合至Gemini、Google AI Studio等多款产品中。
谷歌AI创意工作室Flow升级 集成图像视频生成功能
谷歌宣布全面升级AI创意工作室Flow,整合了Whisk和ImageFX等图像生成工具,并搭载Nano Banana图像模型与Veo视频模型,实现从图像到视频的一站式创作。新增专业级编辑功能如文本驱动局部重绘和镜头控制,提升创作精准度。平台已免费开放,支持用户无缝迁移项目,加速AI创意工具从实验到产品的转型。
阿里低调推出AIGC设计平台呜哩,通义千问图像模型全家桶加持
阿里近日低调推出AIGC创意设计平台“呜哩”,该平台集成了通义千问团队研发的多款图像大模型,包括Qwen Image25.12、Qwen Image Turbo和Qwen Image25.11,为用户提供高质量的图片生成、视频生成、灵感联想及翻译等功能,旨在帮助内容创作者和设计师高效产出多样化的创意内容。
中国高校创新AI图像架构破解逻辑失准难题
中国科学技术大学等高校科研团队研发出名为“UniCorn”的新型AI图像处理框架,旨在解决当前图像生成系统中常见的“能理解却说不对”的逻辑失准问题。该框架通过模拟医学中的“传导性失语症”现象,引入观察者、执行者和质检员三种角色协同机制,利用系统自身的图像质量评估能力实时指导并修复生成过程中的错误,显著提升了空间逻辑和细节纹理的准确性。
Grok暂停大部分用户图像生成服务
Elon Musk的人工智能工具Grok因生成性别化及暴力图像引发争议,已暂停大部分用户的图像生成功能,仅限付费用户使用。此举是在面临英国监管威胁和全球批评后采取的,研究显示该工具生成了大量未经同意的色情和性暴力内容。英国首相要求X平台清理不当内容,否则可能面临罚款或禁令。
美团开源6B参数图像生成模型LongCat-Image,中文图文生成与编辑达SOTA
美团LongCat团队开源6B参数图像生成模型LongCat-Image,在文生图和图像编辑任务中达到开源SOTA水平。模型特别优化中文文字生成,支持复杂汉字渲染,适用于海报设计等场景。通过课程学习和主观评估确保高质量输出,用户可通过Hugging Face和GitHub访问体验。
Vidu发布Q2生图全家桶 4K生图图像编辑图转视频全免费
Vidu Q2版本发布集成了参考生图、文生图与图像编辑三大核心功能,支持4K画质输出和精准画面控制,并新增局部重绘、材质替换等编辑能力。新版本构建了从生图到视频的一站式工作流,广泛应用于广告、电商等领域,目前正推出限时免费活动。
阿里巴巴开源 Z-Image 图像模型:支持中英双语文字渲染
阿里巴巴通义实验室开源Z-Image图像生成模型,仅6B参数实现接近20B模型的视觉质量。采用单流DiT架构,支持中英双语文字渲染,8步采样即可生成高清图像,显存占用低于16GB。模型包含Turbo、Base和Edit三大变体,在消费级显卡上流畅运行,显著降低AI图像生成技术的应用门槛。
AI绘图的“性价比之王”?当德国黑森林,开始用“开源VAE”,重塑游戏规则
德国Black Forest Labs发布全新FLUX.2图像生成系统,包含四个专业版本,在文本转图像生成和编辑任务中达到66.6%胜率。该系统支持400万像素一致性输出,提升多指令处理能力,并开源VAE组件促进企业互操作性,为产品可视化和创意工作流程提供高效解决方案。
你的下一张海报,价值0.24美元:谷歌用Nano Banana Pro证明,专业AI才是“最聪明的钱”
谷歌发布新一代图像生成模型Nano Banana Pro,基于Gemini 3架构,支持最高4K分辨率输出、14对象融合和5人身份一致性保持。新增联网搜索功能可实时抓取网络信息生成图表,并集成SynthID与C2PA双重水印验证。定价调整为1080p/2K每张0.139美元,4K每张0.24美元,已在NotebookLM、Slides等谷歌生态中集成。
谷歌的增长配方:Nano Banana 2预告背后,一场关于“融合”的闪电战
谷歌即将发布新一代AI图像生成模型Nano Banana2,这是Gemini平台的重要升级。该模型延续前代优势,优化视觉生成速度和艺术风格多样性,支持多轮对话交互和角色保持功能,可与Gemini3.0深度整合提升多模态处理能力。自首代模型推出以来已吸引超1000万用户,完成2亿次图像编辑,新版有望进一步推动创意产业发展并标注水印确保透明度。