TAG:多模态AI

阿里开源Qwen3-VL,攻克长视频分析难题,引领多模态技术突破

阿里开源Qwen3-VL,攻克长视频分析难题,引领多模态技术突破

阿里巴巴开源了新一代视觉-语言大模型Qwen3-VL,在长视频分析领域取得重大突破。该模型在长达2小时的视频中能保持99.5%的关键帧定位准确率,解决了长时序理解的核心难题。同时,在视觉数学和多语言文档处理等专项任务上也达到业界领先水平,为视频分析、智能剪辑等应用提供了自主可控的解决方案。

爱力方 2025-12-04 17:10
0
0

亚马逊Nova 2系列模型发布 AI性能再创新高

亚马逊Nova 2系列模型发布 AI性能再创新高

亚马逊云科技在re:Invent2025大会上发布了Nova2系列自研大模型,涵盖文本、图像、视频、语音多模态场景,并首次内置网页检索与代码执行能力。该系列包括Nova2Lite、Nova2Pro、Nova2Sonic和Nova2Omni四款模型,在多项基准测试中性能对标行业领先产品,同时宣称具有更高的性价比。AWS还推出了Nova Forge定制训练服务,旨在降低企业自建大模型的成本。

2025-12-03 17:57
0
0

Kling 2.6即将发布:原生音频与1080P高清视频,AI视频迈入有声时代

Kling 2.6即将发布:原生音频与1080P高清视频,AI视频迈入有声时代

快手Kling AI发布2.6版本,首次实现原生音频生成,支持中英双语对白、歌唱与音效同步输出,完成“文本-视频-音频”一键闭环。该版本保持10秒1080P高清输出,成本降低30%,并在复杂指令遵守、角色一致性等方面显著提升。面向影视、广告等专业场景,有望大幅缩短后期流程,推动AI视频进入有声时代。

爱力方 2025-12-03 16:45
0
0

AI推理的“新王”驾到?当xLLM-Core,用20毫秒的延迟,向vLLM发起挑战

AI推理的“新王”驾到?当xLLM-Core,用20毫秒的延迟,向vLLM发起挑战

xLLM社区将于12月6日举办首届线下Meetup,重磅发布自研开源推理引擎xLLM-Core。该引擎支持MoE、文生图、文生视频全场景,通过统一计算图和Mooncake缓存方案实现P99延迟低于20ms,较vLLM性能提升42%,吞吐量提升2.1倍。现场将分享京东双11实战案例,展示峰值每秒40k请求处理能力,并发布Apache 2.0开源版本。

爱力方 2025-11-25 16:39
0
0

告别复制粘贴!NotebookLM直接“读懂”文档,你只需动嘴,它来做PPT

告别复制粘贴!NotebookLM直接“读懂”文档,你只需动嘴,它来做PPT

谷歌NotebookLM推出重磅更新,新增Slide Decks功能可将用户上传的PDF、文档等资料一键生成专业级PPT演示文稿。借助Nano Banana Pro图像生成模型,配图质量远超Gemini App,支持自定义风格和多次优化,彻底解决AI工具的内容幻觉问题,成为知识工作者的高效生产力工具。

爱力方 2025-11-21 14:57
55
0

文心大模型5.0重磅发布!百度推全球首个“原生全模态”大模型,李彦宏:智能本身就是最大应用

文心大模型5.0重磅发布!百度推全球首个“原生全模态”大模型,李彦宏:智能本身就是最大应用

百度在2024世界大会上正式发布文心大模型5.0,这是全球首个'原生全模态'大模型,实现了文本、图像、语音的底层统一表征与联合训练。该模型能自然处理跨模态复杂任务,推理效率和泛化性能显著提升。李彦宏强调'智能本身就是最大应用',文心5.0将通过千帆平台开放给开发者,并深度集成到百度全系产品中,推动AI像水电一样无处不在。

2025-11-13 15:51
2
0

AI的“火眼金睛”:当你的旅行照,成为一份完整的个人档案

AI的“火眼金睛”:当你的旅行照,成为一份完整的个人档案

央视新闻在2025年世界互联网大会期间发出高危警示:AI技术正让日常社交晒图变成隐私泄露新途径。现代AI不仅能识别人脸、证件文字,还能通过上下文推理还原住址、行程轨迹等敏感信息。文章揭露了交通票证、个人证件和实时定位三类高危晒图行为,并提供主动防护建议,帮助用户在AI时代保护个人隐私安全。

爱力方 2025-11-12 14:36
0
0

百度重磅发布新一代多模态AI模型ERNIE-4.5-VL

百度重磅发布新一代多模态AI模型ERNIE-4.5-VL

百度最新发布多模态AI模型ERNIE-4.5-VL-28B-A3B-Thinking,该模型具备强大的语言处理能力并创新引入'图像思考'功能。通过仅3B激活参数设计实现高效计算,支持图片放大、搜索等工具调用,显著提升图像与文本交互体验。这一开源模型将为智能搜索、在线教育、电子商务等领域带来新的技术突破与应用可能。

2025-11-11 16:52
0
0

17秒的“创世纪”:Grok Imagine发布,一场关于AI视频速度的闪电战

17秒的“创世纪”:Grok Imagine发布,一场关于AI视频速度的闪电战

xAI旗下AI助手Grok推出重磅升级,Grok Imagine支持纯文本直接生成带音效的短视频。用户只需输入一句话描述,17秒内即可获得6-15秒高质量视频,支持多种宽高比和创意模式,大幅降低视频创作门槛。这一功能以碾压级速度挑战OpenAI Sora和Google Veo,让每个人都能轻松将想法转化为视听内容。

爱力方 2025-11-10 17:47
29
0

中文图像编辑迎来新王!UniWorld-V2发布,框选即改、中文字体精准渲染,性能碾压GPT-Image与Gemini

中文图像编辑迎来新王!UniWorld-V2发布,框选即改、中文字体精准渲染,性能碾压GPT-Image与Gemini

UniWorld-V2是由兔展智能与北京大学联合推出的新一代图像编辑模型,基于创新的UniWorld-R1强化学习框架,在图像编辑领域实现重大突破。该模型支持框选即改操作,能够精准理解中文指令并渲染复杂中文字体,在GEdit-Bench和ImgEdit测试中性能显著超越GPT-Image与Gemini等知名模型,为多模态图像编辑技术带来新的可能性。

2025-11-07 11:05
0
0

引擎的叛逆:Llama.cpp史诗级更新,本地AI迎来“Ollama时刻”

引擎的叛逆:Llama.cpp史诗级更新,本地AI迎来“Ollama时刻”

llama.cpp迎来史诗级更新,实现多模态输入、并行交互和JSON结构化输出三大突破。用户可直接处理图片、音频和PDF文件,通过现代化Web界面进行多任务并行处理,并自定义JSON模板实现自动化输出。所有操作100%本地运行,保障数据隐私,为普通用户和开发者提供高效安全的本地AI解决方案。

爱力方 2025-11-05 14:39
3
0

谷歌CEO确认:Gemini3年内发布,AI Agent能力或成突破口

谷歌CEO确认:Gemini3年内发布,AI Agent能力或成突破口

谷歌CEO皮查伊确认Gemini3将在年内发布,重点提升AI Agent能力以处理复杂多模态任务。这款新模型旨在超越Gemini2.5Pro,缩小与GPT-5等竞争对手的差距。同时,Alphabet季度营收首次突破千亿美元,AI业务成为核心增长动力,Gemini App月活用户达6.5亿,显示谷歌在AI领域的强劲发展势头。

2025-11-03 14:46
0
0

前端危,Gemini 3内测结果获网友一致好评,“有史以来最强前端开发模型”

前端危,Gemini 3内测结果获网友一致好评,“有史以来最强前端开发模型”

谷歌Gemini 3模型未发布便引发热议,内测结果显示其在前端开发、SVG矢量图生成和多模态能力方面表现卓越。网友实测证实它能一次性生成网页、创作动画SVG、制作黑洞可视化效果,甚至在通用智力测试中超越GPT-5等竞争对手。模型预计10月22日发布,被赞为'有史以来最强前端开发模型'。

2025-10-15 16:28
88
0