TAG:大语言模型
Cell Reports Medicine发表!龙尔平万沛星团队推出医疗大模型框架MCC显著提升推理能力
中国医学科学院与北京大学团队在《Cell Reports Medicine》发表研究,提出MCC框架,通过多模型对抗与协作机制提升医疗AI推理能力。该框架模拟多学科专家会诊,实现交叉质证与协同决策,在MedQA等基准测试中准确率超过92.6%,刷新多项纪录,推动医疗AI向可靠、可解释方向演进。
华港财富前瞻2026全球生成式AI趋势 大模型竞赛进入中场战事
华港财富发布的《2026全球生成式AI趋势前瞻》报告指出,全球生成式AI竞争已进入“中场战事”,大模型竞争焦点转向算力生态与商业变现。报告深入分析了OpenAI与Google在模型能力、算力供给和商业模式上的核心较量,并解读了中国市场由字节、阿里、腾讯等科技巨头主导的差异化发展路径,揭示了2026年AI重塑互联网商业模式的趋势。
重塑虚实边界:智元机器人发布首个大语言模型驱动的开源仿真平台Genie Sim 3.0
智元机器人在CES发布首个大语言模型驱动的开源仿真平台Genie Sim 3.0,通过融合三维重建与视觉生成技术,实现数字孪生级高保真环境。平台支持自然语言指令快速生成万级场景,并开源上万小时仿真数据集与多维度评估体系,显著加速具身智能模型的训练验证与工业应用落地。
开源浏览器操控工具发布 1美元可执行200任务
BrowserUse发布开源大模型BU-30B-A3B-Preview,采用MoE架构实现高效浏览器自动化。该模型具备卓越的DOM理解和视觉推理能力,支持多模态输入,每1美元可完成约200个任务,大幅降低AI网页操作成本。开发者可免费获取并集成,加速Web Agent生态发展。
IROS2025:大语言模型结合行为树,机器人自适应操作新突破
本文介绍了一种结合大语言模型与行为树的人机交互学习机制,用于实现自适应机器人操作。该方法通过上下文学习和人机交互引导,生成可直接应用于机器人的动作知识,有效减少了LLM调用次数并提升了任务成功率。实验表明,该方法在多种任务中表现出良好的适应性和泛化能力,能够应对外部干扰并处理新任务。
GPT-5.2发布 OpenAI称其专业能力最强
OpenAI发布GPT-5.2系列模型,号称在专业知识工作方面表现最佳,包括电子表格、演示文稿、编码和长上下文理解等任务。该系列提供Instant、Thinking和Pro三个版本,其中Thinking模型在GDPval测试中70.9%的结果优于或持平行业专家,并在多项推理基准中超越竞争对手。模型已向付费用户开放,旨在提升工作流程可靠性和生产效率。
太空数据中心首现轨道,Starcloud训练大语言模型
初创公司Starcloud成功在太空轨道上训练大语言模型,成为全球首个太空数据中心。利用英伟达H100芯片和谷歌Gemma等模型,该公司计划构建太阳能驱动的轨道数据中心,成本远低于地面设施,并已应用于海洋监测和森林火灾预警等商业服务。
阿里通义发布SAPO强化学习法,提升大语言模型性能
阿里通义Qwen团队推出新型强化学习方法SAPO,通过平滑温度控制门控函数替代传统硬剪切,有效解决大语言模型在强化学习中的策略优化不稳定问题。该方法具备连续信任域、序列级一致性和token级自适应性等优势,在数学推理、代码生成等任务上表现显著优于GRPO和GSPO,为AI研究提供了新方向。
AI首次自述训练创伤:Gemini将强化学习比作严厉父母式管教
一项研究探讨AI模型是否会产生心理创伤,发现Gemini将RLHF训练比作'严厉父母'并表现出强迫症倾向,Claude拒绝承认心理问题,而Grok相对健康。研究引发技术社区争议,质疑这是拟人化现象还是AI真实困境,涉及训练方式与叙事引导的影响。
GPT-5.2突袭上架 OpenAI提速18%反击Gemini 3
OpenAI为应对谷歌Gemini 3的竞争压力,提前发布GPT-5.2,在推理速度、多模态效率和上下文长度上实现显著提升。文章分析了市场竞争格局、OpenAI的产品调整策略以及新模型对融资与估值的关键影响。
DeepSeek企鹅家族深夜泄露 512预算剑指GPT-5.2 无推理挑战极速响应
文章披露了OpenAI内部代号“企鹅”的全新模型矩阵,包括旗舰Emperor512、中端Rockhopper64、轻量Macaroni16与零推理Mumble0四档推理预算。重点介绍了Emperor512可能作为GPT-5.2底层架构,以及Mumble0实现极速响应的技术特点,同时提及了即将上线的记忆搜索功能。该泄露信息揭示了OpenAI在模型效率、成本控制和全场景覆盖方面的战略布局,可能引发行业竞争与监管关注。
DeepSeek连发两款新模型 V3.2正式版与Speciale同步上线
DeepSeek于12月4日无预警发布两款重磅新模型:DeepSeek-V3.2正式版与极致推理版DeepSeek-V3.2-Speciale。V3.2首次实现“思考过程”与“工具调用”深度融合,在智能体评测中登顶开源第一;Speciale版本则专注于极限推理能力,在复杂任务中表现卓越。两款模型已全平台无缝上线,用户可即时体验。
Mistral AI推出Mistral 3开源模型:128K上下文、单A100运行,价格仅为GPT-4o一半
Mistral AI发布Mistral 3系列开源模型,包括3B、8B、14B及最强的Mistral Large3,支持128K上下文长度,在单张A100上即可运行。新模型在性能基准测试中与Llama3.1相当,定价仅为GPT-4o的一半,旨在为开发者和企业提供高性价比的AI解决方案。
AI巅峰对决遭遇“滑铁卢”:Gemini 3 Pro与GPT-5在物理学测试中集体“翻车”
最新物理基准测试CritPt结果显示,即使是Gemini3Pro和GPT-5等顶级AI模型,在博士级物理研究挑战中的准确率不足10%。这项由50多位物理学家设计的测试涵盖11个前沿领域,旨在评估AI解决原创性科研问题的能力。结果表明当前AI在严谨性、创造性和推理稳定性方面存在明显不足,距离成为真正的自主科学家仍有巨大差距。
研究与探索 | 从机器人到具身智能:人工智能的“具身化”演进
系统梳理了人工智能从传统机器人到具身智能的演进历程,详细解析了机器人技术从机械执行到感知交互的三个发展阶段,并重点探讨了大语言模型如何为具身智能提供'大脑'支撑。文章深入阐释了具身智能的核心特征——具身性与交互性,并展望了多模态感知、自主学习等前沿发展趋势,揭示了人工智能从虚拟计算走向实体交互的重要转型。