TAG:多模态模型

KlingAI数字人2.0上线爆火 五分钟一键生成唱跳视频

KlingAI数字人2.0上线爆火 五分钟一键生成唱跳视频

快手可灵AI发布数字人模型Avatar2.0,用户只需一张照片和一段音频,即可一键生成5分钟唱歌视频。该模型通过多模态导演模块实现情感与动作的自然表达,告别传统数字人的'面瘫'感,支持高清流畅输出,已上线免费试用。这一突破将重塑短视频、电商营销等内容创作生态,降低专业视频制作门槛。

爱力方 2025-12-05 15:55
0
0

快手可灵2.6全量上线 字节Seedream4.5发布 DeepSeek连发两款新模型

快手可灵2.6全量上线 字节Seedream4.5发布 DeepSeek连发两款新模型

本期AI日报汇总了AI领域的最新动态:快手可灵2.6实现音画同步生成;字节Seedream 4.5提升多图一致性;智源研究院推出世界模型Emu3.5;小米公布AI战略路线图;DeepSeek发布两款新模型。内容涵盖多模态生成、模型升级、行业应用与安全研究,为开发者提供全面的技术趋势洞察。

2025-12-04 17:19
0
0

商汤开源NEO架构:数据量锐减九成,多模态模型性能仍领先

商汤开源NEO架构:数据量锐减九成,多模态模型性能仍领先

商汤科技联合南洋理工大学S-Lab发布原生多模态架构NEO,通过全新设计实现像素到Token的连续映射,数据需求仅为业界平均的1/10,在多个基准测试中取得SOTA性能,并开源模型权重与训练脚本。

2025-12-03 15:33
0
0

视频AI的“关键一跃”:快手Kling Omni本周发布,用2分钟原生音频树立长视频生成新标杆

视频AI的“关键一跃”:快手Kling Omni本周发布,用2分钟原生音频树立长视频生成新标杆

快手科技本周正式发布Kling Omni多模态视频基础模型,该模型通过统一的多模态视觉语言框架,提供导演级精准控制能力,支持文本、图像和视频多输入参考。相比前代产品,Kling Omni可生成长达2分钟的连续视频,并集成了原生音频同步技术,实现帧级精确匹配。目前该系列已服务全球4500万用户和2万家企业,被视为AI视频领域的革命性跃进,将推动影视、广告和游戏产业的高效创作。

爱力方 2025-12-01 15:16
8
0

快手旗舰 Keye-VL-671B-A37B 重磅发布,多模态推理能力实现新突破

快手旗舰 Keye-VL-671B-A37B 重磅发布,多模态推理能力实现新突破

快手发布新一代旗舰多模态模型Keye-VL-671B-A37B,该模型具备'善看会想'特性,在通用视觉理解、视频分析和数学推理等核心能力上实现突破。采用DeepSeek-V3-Terminus作为基座,通过三阶段预训练和系统优化,显著提升了多模态理解与复杂推理能力。未来将强化多模态Agent能力,支持工具调用和深度思考,推动多模态AI向更通用、可靠的方向发展。

爱力方 2025-11-28 18:00
1
0

Google Gemini 3 Pro预览版现身Vertex AI:支持百万级上下文窗口

Google Gemini 3 Pro预览版现身Vertex AI:支持百万级上下文窗口

谷歌Gemini 3 Pro预览版在Vertex AI平台被发现,支持高达100万token的上下文窗口,预计11月正式发布。该模型在标准层级支持20万token,高级层级扩展至100万,优化了多模态处理和输入输出比率,适用于长文档分析、金融建模和自动化代理系统等企业级应用,性能预计超越GPT-4o。

2025-11-06 14:52
1
0

LiblibAI 完成1.3亿美元融资,成为国内最大单笔 AI 应用投资

LiblibAI 完成1.3亿美元融资,成为国内最大单笔 AI 应用投资

LiblibAI近日完成1.3亿美元B轮融资,创下国内AI应用领域最大单笔融资纪录。本轮融资由红杉中国、CMC资本等机构领投,将用于加速全球化布局和多模态内容生态建设。作为国内最大的AI应用平台,LiblibAI整合图像、视频、3D等多种多模态能力,已孵化超2000万创作者,其'工具集成+社区生态'模式标志着AI投资正从底层模型转向应用层落地。

2025-10-23 15:16
10
0

文心4.5最强衍生模型发布 PaddleOCR-VL登顶OCR综合性能全球第一

文心4.5最强衍生模型发布 PaddleOCR-VL登顶OCR综合性能全球第一

百度正式发布并开源多模态文档解析模型PaddleOCR-VL,该模型在全球权威评测OmniBenchDoc V1.5中以92.6分取得综合性能全球第一,超越GPT-4o、Gemini-2.5 Pro等主流模型。模型参数仅0.9B,轻量高效,支持109种语言,精准识别文本、表格、公式等复杂元素,推理速度较同类模型提升显著,适用于政企文档管理、知识检索等多种智能任务。

2025-10-17 11:08
11
0

字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动

字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动

字节跳动Seed团队最新发布Robix「机器人大脑」,通过一体化端到端多模态模型整合推理、任务规划与人机交互,突破传统模块化设计的局限性。该技术使机器人能够处理复杂长程任务,实现智能食材准备、动态指令响应和自然交互,让机器人真正具备思考与灵活互动能力。

2025-09-10 14:37
16
0