TAG:开源模型
阿里通义实验室开源Z-Image-Turbo-Fun-Controlnet-Union,6B参数性能超越Flux
阿里巴巴通义实验室开源Z-Image-Turbo-Fun-Controlnet-Union模型,这是一个仅6亿参数的高效ControlNet扩展,支持姿态、边缘、深度等多条件精确控制,显著提升图像生成的创意与精准度。模型轻量高效,硬件要求低,适用于电商设计、影视特效等专业场景,已在Hugging Face平台开源并支持商用。
阿里云SQL诊断工具全球评测夺冠
阿里云析言XiYan-SQL在全球权威的SQL诊断评测BIRD-CRITIC中夺得三项榜单第一,超越了多家顶尖团队。该评测涵盖MySQL、PostgreSQL等主流数据库,难度远超传统测试。XiYan-SQL通过创新技术,在复杂场景下提供高可用的SQL诊断与修复方案,相关产品已在阿里云百炼平台上线。
阿里开源Qwen3-VL,攻克长视频分析难题,引领多模态技术突破
阿里巴巴开源了新一代视觉-语言大模型Qwen3-VL,在长视频分析领域取得重大突破。该模型在长达2小时的视频中能保持99.5%的关键帧定位准确率,解决了长时序理解的核心难题。同时,在视觉数学和多语言文档处理等专项任务上也达到业界领先水平,为视频分析、智能剪辑等应用提供了自主可控的解决方案。
DeepSeek双模型重磅开源 长文本与深度思考能力再突破
DeepSeek发布V3.2双模型,标准版在128k上下文场景下与GPT-5互有胜负,深度思考版在多项基准测试中与Gemini3Pro打平。核心升级转正稀疏注意力(DSA)将长文本计算复杂度降至线性,显存占用下降40%,推理速度提升2.2倍,首次实现开源模型百万token单卡推理。模型已开源并允许商业化,下一步将开源DSA内核与RL训练框架,推动开源阵营在长文本与推理能力上冲击领先地位。
Mistral AI推出Mistral 3开源模型:128K上下文、单A100运行,价格仅为GPT-4o一半
Mistral AI发布Mistral 3系列开源模型,包括3B、8B、14B及最强的Mistral Large3,支持128K上下文长度,在单张A100上即可运行。新模型在性能基准测试中与Llama3.1相当,定价仅为GPT-4o的一半,旨在为开发者和企业提供高性价比的AI解决方案。
IMO金牌成AI试金石?DeepSeek-Math-V2的突破,让学术界重新审视AI极限
DeepSeek正式发布DeepSeek-Math-V2开源数学推理模型,这款6850亿参数的MoE模型成为全球首个达到国际数学奥林匹克金牌水平的开源AI。模型采用创新的‘生成-验证’双模型闭环机制,通过实时逻辑审查和自我修正实现真正的可自我验证能力。在2025年IMO竞赛中取得83.3%正确率获得金牌,在普特南数学竞赛中更是取得118/120的近乎满分成绩,全面超越此前所有公开模型。
“开放”战胜“封闭”!Flux.2免费开源闪电战,开启AI绘图新纪元
Flux.2开源模型震撼发布,提供4MP高质量图像生成仅需8秒和0.003美元成本,相比谷歌3000美元的Nano Banana Pro具有压倒性价格优势。该模型包含四个版本,分别针对速度、灵活性、轻量化和边缘计算优化,支持像素级精细控制和多模态输入,为独立创作者和开发者提供了顶级AI生图工具,彻底改变了行业成本结构。
开源世界的“新王”驾到?当FLUX.2,开始用“10图参考”,重新定义“一致性”
Black Forest Labs正式发布FLUX.2系列开源模型,包含pro、flex、dev、klein四档版本。核心功能包括支持10张图像参考生成一致性>95%的内容、4MP高分辨率编辑、文本渲染准确率超DALL·E3约10%。32B参数的FLUX.2[dev]已开源,提供PyTorch、Diffusers等开发者工具,显著降低电商、广告等行业的视觉制作门槛。
AI绘图的“性价比之王”?当德国黑森林,开始用“开源VAE”,重塑游戏规则
德国Black Forest Labs发布全新FLUX.2图像生成系统,包含四个专业版本,在文本转图像生成和编辑任务中达到66.6%胜率。该系统支持400万像素一致性输出,提升多指令处理能力,并开源VAE组件促进企业互操作性,为产品可视化和创意工作流程提供高效解决方案。
OCR的“轻骑兵”突袭:当腾讯混元,用10亿参数,重塑“文字识别”
腾讯混元开源全新OCR模型HunyuanOCR,仅10亿参数却斩获多项SOTA成绩。该模型采用端到端设计,在复杂文档解析、多场景文字检测识别中表现卓越,支持14种小语种翻译并荣获ICDAR2025冠军。轻量化架构便于部署,已应用于卡证处理、视频创作等场景,用户可通过GitHub和Hugging Face快速体验。
当汽车与机器人共享同一个“大脑”:小米开源MiMo-Embodied
小米公司正式发布并开源具身大模型MiMo-Embodied,该模型成功打通自动驾驶与具身智能两大领域,实现了从垂直专用到跨域协同的关键跨越。模型具备跨域能力覆盖、知识转移协同和多阶段训练策略三大技术亮点,在29项核心基准测试中全面超越现有开源、闭源及专用模型,在具身智能和自动驾驶领域分别取得17项和12项SOTA成绩,重新定义了全场景智能的能力边界。
“一句话生成一个3D模型”:Meta发布SAM 3D,让所有人都成为创造者
Meta AI发布革命性模型SAM3D,只需单张2D照片即可生成带纹理、材质与几何一致性的3D模型。该模型提供通用物体和人像重建两套权重,在真实世界图像上显著优于现有NeRF与Gaussian Splatting方案,Chamfer Distance降低28%,法向一致性提升19%。支持AR/VR、机器人及影视后期应用,已集成至Quest3并开放API调用。
Databricks联创Konwinski警告:美国AI研究优势正在流失
Databricks联合创始人Andy Konwinski在Cerebral Valley AI Summit上警告,美国正将AI研究主导权让给中国,这对民主制度构成生存级威胁。他指出过去一年约半数值得关注的AI新思路来自中国团队,批评美国头部实验室高价挖走学术人才却将核心模型闭源,导致科学家自由交流传统枯竭。Konwinski呼吁通过政策激励和资金扶持恢复美国学术界与产业界的开放协作。
东北大学开源多语言翻译“核弹”!NiuTrans.LMT支持60语种234方向,低资源语言翻译重大突破
东北大学小牛翻译团队开源NiuTrans.LMT多语言翻译大模型,支持60种语言234个翻译方向,采用中英双中心架构打破英语霸权,特别在29种低资源语言翻译上取得重大突破。模型通过两阶段训练在FLORES-200基准测试中表现卓越,提供0.6B至8B四种参数规模,满足从移动端到企业级的多样化部署需求。
Sora 2 之后,北京人形WoW具身世界模型带来aha时刻
北京人形机器人创新中心开源了WoW具身世界模型,这是一个融合视觉、动作、物理感知与推理的统一框架,让机器人能够理解物理规律并在真实环境中自主操作。相较于Sora 2,WoW在时空一致性和物理推理方面表现更出色,具备跨机器人形态、任务和场景的泛化能力,有望成为世界模型领域的'Deepseek',推动具身智能发展。