TAG:AI基准测试

DeepMind推出AI线下桌游挑战赛 Gemini3家族称霸扑克与狼人杀榜单

谷歌DeepMind与Kaggle合作升级Game Arena基准测试平台，新增狼人杀和扑克游戏，以评估AI在社交推理、不确定决策和复杂博弈中的能力。Gemini3家族模型在排行榜中表现卓越，同时该测试也被视为AI安全研究的重要工具，帮助检测恶意引导行为。

aibase

2026-02-04 11:00

Gemini 3.5 Snow Bunny代码生成能力曝光大幅领先GPT-5.2

谷歌Gemini 3.5内部模型“Snow Bunny”遭泄露，据称能从一个提示生成多达3000行可运行代码并构建完整应用。新模型阵容包括专注速度的Fierce Falcon和擅长UI/音频的Ghost Falcon，在基准测试中表现超越GPT-5.2与Claude Opus4.5，并引入深度思考模式与System2推理机制，展示了AI在软件开发与复杂问题解决上的重大突破。

aibase

2026-01-29 15:16

通知

尊敬的用户

user

TAG:AI基准测试

DeepMind推出AI线下桌游挑战赛 Gemini3家族称霸扑克与狼人杀榜单

Gemini 3.5 Snow Bunny代码生成能力曝光大幅领先GPT-5.2

快讯

理想汽车遇困机器人业务成救命稻草

蓝芯算力获数亿融资创始人为字节前芯片负责人

360发布反AI投毒监测工具促GEO行业规范发展

日本乐天AI 3.0开源风波：删除DeepSeek许可证后紧急补救

科技股回暖带动市场情绪存储芯片持续走强周期股逆市下挫

英伟达连发7款重磅芯片从芯片商转型AI工厂黄仁勋战略转向

国内SaaS行业面临AI挑战如何应对市场变革

鹏华陈大烨前瞻布局AI全链条从算力基建到应用投资

王兴兴放话G1机器人全球领先 20年后仍经典揭秘春晚机器人幕后

多路资金博弈存储芯片股游资联手量化抢筹金开新能

推荐专栏

爱力方

机器人大讲堂

user

TAG:AI基准测试

DeepMind推出AI线下桌游挑战赛 Gemini3家族称霸扑克与狼人杀榜单

Gemini 3.5 Snow Bunny代码生成能力曝光 大幅领先GPT-5.2

快讯

理想汽车遇困 机器人业务成救命稻草

蓝芯算力获数亿融资 创始人为字节前芯片负责人

360发布反AI投毒监测工具 促GEO行业规范发展

日本乐天AI 3.0开源风波：删除DeepSeek许可证后紧急补救

科技股回暖带动市场情绪 存储芯片持续走强 周期股逆市下挫

英伟达连发7款重磅芯片 从芯片商转型AI工厂 黄仁勋战略转向

国内SaaS行业面临AI挑战 如何应对市场变革

鹏华陈大烨前瞻布局AI全链条 从算力基建到应用投资

王兴兴放话G1机器人全球领先 20年后仍经典 揭秘春晚机器人幕后

多路资金博弈存储芯片股 游资联手量化抢筹金开新能

推荐专栏

爱力方

机器人大讲堂

Gemini 3.5 Snow Bunny代码生成能力曝光大幅领先GPT-5.2

理想汽车遇困机器人业务成救命稻草

蓝芯算力获数亿融资创始人为字节前芯片负责人

360发布反AI投毒监测工具促GEO行业规范发展

科技股回暖带动市场情绪存储芯片持续走强周期股逆市下挫

英伟达连发7款重磅芯片从芯片商转型AI工厂黄仁勋战略转向

国内SaaS行业面临AI挑战如何应对市场变革

鹏华陈大烨前瞻布局AI全链条从算力基建到应用投资

王兴兴放话G1机器人全球领先 20年后仍经典揭秘春晚机器人幕后

多路资金博弈存储芯片股游资联手量化抢筹金开新能