TAG:MoE

蚂蚁开源Ring-flash-linear-2.0-128K模型,混合注意力与MoE架构提升长文本编程效率

蚂蚁开源Ring-flash-linear-2.0-128K模型,混合注意力与MoE架构提升长文本编程效率

在AI大模型竞争白热化的当下,高效推理与长上下文处理已成为开发者痛点。近日,蚂蚁集团旗下百灵大模型团队正式开源Ring-flash-linear-2.0-128K,一款专为超长文本编程设计的创新模型。

爱力方 2025-12-15 11:24
12
0

AI算力的“B计划”:当AMD与IBM联手,用1024张MI300X,炼出了第一个“非NVIDIA”大模型

AI算力的“B计划”:当AMD与IBM联手,用1024张MI300X,炼出了第一个“非NVIDIA”大模型

AMD携手IBM与Zyphra发布全球首个纯AMD硬件训练的大模型ZAYA1,采用MoE架构预训练14T tokens,性能与Qwen3系列持平。ZAYA1创新性采用CCA注意力机制和线性路由MoE,在数学推理等STEM领域表现优异,验证了AMD MI300X+ROCm在大规模模型训练中的可行性。

爱力方 2025-11-25 16:52
5
0