TAG:长文本处理
DeepSeek双模型重磅开源 长文本与深度思考能力再突破
DeepSeek发布V3.2双模型,标准版在128k上下文场景下与GPT-5互有胜负,深度思考版在多项基准测试中与Gemini3Pro打平。核心升级转正稀疏注意力(DSA)将长文本计算复杂度降至线性,显存占用下降40%,推理速度提升2.2倍,首次实现开源模型百万token单卡推理。模型已开源并允许商业化,下一步将开源DSA内核与RL训练框架,推动开源阵营在长文本与推理能力上冲击领先地位。
蚂蚁百灵大模型团队开源Ring-flash-linear-2.0-128K,混合注意力+MoE架构重塑长文本编程效率
蚂蚁百灵大模型团队开源Ring-flash-linear-2.0-128K,采用混合线性注意力机制和MoE稀疏架构,仅激活6.1B参数即可媲美40B密集模型性能。该模型原生支持128K上下文窗口,可扩展至512K,在代码生成和长文本编程任务中实现SOTA表现,推理速度提升3倍以上,为开发者提供高效AI编程解决方案。
我国2025年人形机器人产品发布超330款
2026-01-21
0 浏览
工信部将发布人形机器人与具身智能标准化建设指南
2026-01-21
0 浏览
马斯克重启特斯拉Dojo3芯片项目,瞄准太空AI发展
2026-01-21
0 浏览
人形机器人为何难以突破灵巧手技术难关
2026-01-21
0 浏览
中国AI厂商加速拓展国际市场,全球份额持续攀升
2026-01-21
0 浏览
Block推出开源AI编程助手Goose,应对Claude Code痛点
2026-01-21
0 浏览
工信部:新能源汽车与光伏等行业竞争环境持续优化
2026-01-21
0 浏览
清华两名室友联手打造吸金超2亿元的机器人
2026-01-21
0 浏览
江苏企业获批牵头建设农业农村部智能采收机器人重点实验室
2026-01-21
0 浏览
政策产业共振推升机器人股 微创机器人盘中大涨16%
2026-01-21
0 浏览