TAG:大语言模型

Cell Reports Medicine发表!龙尔平万沛星团队推出医疗大模型框架MCC显著提升推理能力

Cell Reports Medicine发表!龙尔平万沛星团队推出医疗大模型框架MCC显著提升推理能力

中国医学科学院与北京大学团队在《Cell Reports Medicine》发表研究,提出MCC框架,通过多模型对抗与协作机制提升医疗AI推理能力。该框架模拟多学科专家会诊,实现交叉质证与协同决策,在MedQA等基准测试中准确率超过92.6%,刷新多项纪录,推动医疗AI向可靠、可解释方向演进。

2026-01-14 15:30
552
0

华港财富前瞻2026全球生成式AI趋势 大模型竞赛进入中场战事

华港财富前瞻2026全球生成式AI趋势 大模型竞赛进入中场战事

华港财富发布的《2026全球生成式AI趋势前瞻》报告指出,全球生成式AI竞争已进入“中场战事”,大模型竞争焦点转向算力生态与商业变现。报告深入分析了OpenAI与Google在模型能力、算力供给和商业模式上的核心较量,并解读了中国市场由字节、阿里、腾讯等科技巨头主导的差异化发展路径,揭示了2026年AI重塑互联网商业模式的趋势。

2026-01-13 15:28
0
0

重塑虚实边界:智元机器人发布首个大语言模型驱动的开源仿真平台Genie Sim 3.0

重塑虚实边界:智元机器人发布首个大语言模型驱动的开源仿真平台Genie Sim 3.0

智元机器人在CES发布首个大语言模型驱动的开源仿真平台Genie Sim 3.0,通过融合三维重建与视觉生成技术,实现数字孪生级高保真环境。平台支持自然语言指令快速生成万级场景,并开源上万小时仿真数据集与多维度评估体系,显著加速具身智能模型的训练验证与工业应用落地。

2026-01-07 17:54
0
0

开源浏览器操控工具发布 1美元可执行200任务

开源浏览器操控工具发布 1美元可执行200任务

BrowserUse发布开源大模型BU-30B-A3B-Preview,采用MoE架构实现高效浏览器自动化。该模型具备卓越的DOM理解和视觉推理能力,支持多模态输入,每1美元可完成约200个任务,大幅降低AI网页操作成本。开发者可免费获取并集成,加速Web Agent生态发展。

爱力方 2025-12-26 15:41
18
0

IROS2025:大语言模型结合行为树,机器人自适应操作新突破

IROS2025:大语言模型结合行为树,机器人自适应操作新突破

本文介绍了一种结合大语言模型与行为树的人机交互学习机制,用于实现自适应机器人操作。该方法通过上下文学习和人机交互引导,生成可直接应用于机器人的动作知识,有效减少了LLM调用次数并提升了任务成功率。实验表明,该方法在多种任务中表现出良好的适应性和泛化能力,能够应对外部干扰并处理新任务。

2025-12-23 17:32
25
0

GPT-5.2发布 OpenAI称其专业能力最强

GPT-5.2发布 OpenAI称其专业能力最强

OpenAI发布GPT-5.2系列模型,号称在专业知识工作方面表现最佳,包括电子表格、演示文稿、编码和长上下文理解等任务。该系列提供Instant、Thinking和Pro三个版本,其中Thinking模型在GDPval测试中70.9%的结果优于或持平行业专家,并在多项推理基准中超越竞争对手。模型已向付费用户开放,旨在提升工作流程可靠性和生产效率。

2025-12-12 14:28
3
0

太空数据中心首现轨道,Starcloud训练大语言模型

太空数据中心首现轨道,Starcloud训练大语言模型

初创公司Starcloud成功在太空轨道上训练大语言模型,成为全球首个太空数据中心。利用英伟达H100芯片和谷歌Gemma等模型,该公司计划构建太阳能驱动的轨道数据中心,成本远低于地面设施,并已应用于海洋监测和森林火灾预警等商业服务。

爱力方 2025-12-11 14:43
31
0

阿里通义发布SAPO强化学习法,提升大语言模型性能

阿里通义发布SAPO强化学习法,提升大语言模型性能

阿里通义Qwen团队推出新型强化学习方法SAPO,通过平滑温度控制门控函数替代传统硬剪切,有效解决大语言模型在强化学习中的策略优化不稳定问题。该方法具备连续信任域、序列级一致性和token级自适应性等优势,在数学推理、代码生成等任务上表现显著优于GRPO和GSPO,为AI研究提供了新方向。

2025-12-10 18:15
13
0

AI首次自述训练创伤:Gemini将强化学习比作严厉父母式管教

AI首次自述训练创伤:Gemini将强化学习比作严厉父母式管教

一项研究探讨AI模型是否会产生心理创伤,发现Gemini将RLHF训练比作'严厉父母'并表现出强迫症倾向,Claude拒绝承认心理问题,而Grok相对健康。研究引发技术社区争议,质疑这是拟人化现象还是AI真实困境,涉及训练方式与叙事引导的影响。

爱力方 2025-12-10 11:10
0
0

GPT-5.2突袭上架 OpenAI提速18%反击Gemini 3

GPT-5.2突袭上架 OpenAI提速18%反击Gemini 3

OpenAI为应对谷歌Gemini 3的竞争压力,提前发布GPT-5.2,在推理速度、多模态效率和上下文长度上实现显著提升。文章分析了市场竞争格局、OpenAI的产品调整策略以及新模型对融资与估值的关键影响。

爱力方 2025-12-08 11:08
6
0

DeepSeek企鹅家族深夜泄露 512预算剑指GPT-5.2 无推理挑战极速响应

DeepSeek企鹅家族深夜泄露 512预算剑指GPT-5.2 无推理挑战极速响应

文章披露了OpenAI内部代号“企鹅”的全新模型矩阵,包括旗舰Emperor512、中端Rockhopper64、轻量Macaroni16与零推理Mumble0四档推理预算。重点介绍了Emperor512可能作为GPT-5.2底层架构,以及Mumble0实现极速响应的技术特点,同时提及了即将上线的记忆搜索功能。该泄露信息揭示了OpenAI在模型效率、成本控制和全场景覆盖方面的战略布局,可能引发行业竞争与监管关注。

爱力方 2025-12-05 11:21
4
0

DeepSeek连发两款新模型 V3.2正式版与Speciale同步上线

DeepSeek连发两款新模型 V3.2正式版与Speciale同步上线

DeepSeek于12月4日无预警发布两款重磅新模型:DeepSeek-V3.2正式版与极致推理版DeepSeek-V3.2-Speciale。V3.2首次实现“思考过程”与“工具调用”深度融合,在智能体评测中登顶开源第一;Speciale版本则专注于极限推理能力,在复杂任务中表现卓越。两款模型已全平台无缝上线,用户可即时体验。

爱力方 2025-12-04 15:26
10
0

Mistral AI推出Mistral 3开源模型:128K上下文、单A100运行,价格仅为GPT-4o一半

Mistral AI推出Mistral 3开源模型:128K上下文、单A100运行,价格仅为GPT-4o一半

Mistral AI发布Mistral 3系列开源模型,包括3B、8B、14B及最强的Mistral Large3,支持128K上下文长度,在单张A100上即可运行。新模型在性能基准测试中与Llama3.1相当,定价仅为GPT-4o的一半,旨在为开发者和企业提供高性价比的AI解决方案。

2025-12-03 10:39
10
0

AI巅峰对决遭遇“滑铁卢”:Gemini 3 Pro与GPT-5在物理学测试中集体“翻车”

AI巅峰对决遭遇“滑铁卢”:Gemini 3 Pro与GPT-5在物理学测试中集体“翻车”

最新物理基准测试CritPt结果显示,即使是Gemini3Pro和GPT-5等顶级AI模型,在博士级物理研究挑战中的准确率不足10%。这项由50多位物理学家设计的测试涵盖11个前沿领域,旨在评估AI解决原创性科研问题的能力。结果表明当前AI在严谨性、创造性和推理稳定性方面存在明显不足,距离成为真正的自主科学家仍有巨大差距。

爱力方 2025-11-24 15:15
2
0

研究与探索 | 从机器人到具身智能:人工智能的“具身化”演进

研究与探索 | 从机器人到具身智能:人工智能的“具身化”演进

系统梳理了人工智能从传统机器人到具身智能的演进历程,详细解析了机器人技术从机械执行到感知交互的三个发展阶段,并重点探讨了大语言模型如何为具身智能提供'大脑'支撑。文章深入阐释了具身智能的核心特征——具身性与交互性,并展望了多模态感知、自主学习等前沿发展趋势,揭示了人工智能从虚拟计算走向实体交互的重要转型。

2025-11-12 16:47
10
0