TAG:ZAYA1

AI算力的“B计划”:当AMD与IBM联手,用1024张MI300X,炼出了第一个“非NVIDIA”大模型

AI算力的“B计划”:当AMD与IBM联手,用1024张MI300X,炼出了第一个“非NVIDIA”大模型

AMD携手IBM与Zyphra发布全球首个纯AMD硬件训练的大模型ZAYA1,采用MoE架构预训练14T tokens,性能与Qwen3系列持平。ZAYA1创新性采用CCA注意力机制和线性路由MoE,在数学推理等STEM领域表现优异,验证了AMD MI300X+ROCm在大规模模型训练中的可行性。

爱力方 2025-11-25 16:52
0
0