TAG:模型优化

DeepSeek双模型重磅开源 长文本与深度思考能力再突破

DeepSeek双模型重磅开源 长文本与深度思考能力再突破

DeepSeek发布V3.2双模型,标准版在128k上下文场景下与GPT-5互有胜负,深度思考版在多项基准测试中与Gemini3Pro打平。核心升级转正稀疏注意力(DSA)将长文本计算复杂度降至线性,显存占用下降40%,推理速度提升2.2倍,首次实现开源模型百万token单卡推理。模型已开源并允许商业化,下一步将开源DSA内核与RL训练框架,推动开源阵营在长文本与推理能力上冲击领先地位。

2025-12-03 10:40
0
0

清华新发现:AI大模型不止看“块头”,更要重视密度

清华新发现:AI大模型不止看“块头”,更要重视密度

清华大学在《自然・机器智能》发表研究,提出AI大模型评估新概念“能力密度”,强调不应仅关注参数规模,而需重视每个参数的智能水平。研究发现能力密度正以每3.5个月翻倍的速度增长,未来小体积模型将实现更高性能。这项突破推动AI向精炼高效发展,已成功应用于手机、汽车等智能设备领域。

爱力方 2025-11-24 11:36
0
0