TAG:AI基准测试

DeepMind推出AI线下桌游挑战赛 Gemini3家族称霸扑克与狼人杀榜单

DeepMind推出AI线下桌游挑战赛 Gemini3家族称霸扑克与狼人杀榜单

谷歌DeepMind与Kaggle合作升级Game Arena基准测试平台,新增狼人杀和扑克游戏,以评估AI在社交推理、不确定决策和复杂博弈中的能力。Gemini3家族模型在排行榜中表现卓越,同时该测试也被视为AI安全研究的重要工具,帮助检测恶意引导行为。

2026-02-04 11:00
10
0

Gemini 3.5 Snow Bunny代码生成能力曝光 大幅领先GPT-5.2

Gemini 3.5 Snow Bunny代码生成能力曝光 大幅领先GPT-5.2

谷歌Gemini 3.5内部模型“Snow Bunny”遭泄露,据称能从一个提示生成多达3000行可运行代码并构建完整应用。新模型阵容包括专注速度的Fierce Falcon和擅长UI/音频的Ghost Falcon,在基准测试中表现超越GPT-5.2与Claude Opus4.5,并引入深度思考模式与System2推理机制,展示了AI在软件开发与复杂问题解决上的重大突破。

2026-01-29 15:16
10
0