TAG:大模型推理

Moonshot AI联合清华大学发布PrfaaS架构，破解大模型算力瓶颈

Moonshot AI与清华大学联合发布了PrfaaS（预填充即服务）架构，旨在破解大模型推理中的算力瓶颈。该架构通过解耦预填充与解码阶段，将计算密集型任务卸载至专用集群，并配合双时间尺度调度机制优化资源利用。实测显示，该方案可提升54%的服务吞吐量并显著降低延迟，为未来跨地域算力网络的构建和AI工业化应用奠定了坚实的技术基础。

aibase

2026-04-20 15:33

Mac用户福音：Ollama整合苹果MLX框架推理提速一倍 M5芯片性能飙升

Ollama 正式集成苹果 MLX 框架，大幅提升 Mac 上本地大模型推理性能，M5 芯片机型响应速度最高翻倍，长对话体验流畅，开启本地 AI 助手的毫秒级时代。开发者迎来软硬协同新红利。

aibase

2026-04-01 10:47

谷歌发布TurboQuant技术大模型内存占用锐减六成

谷歌研究院推出革命性AI内存压缩技术TurboQuant，可在不损失精度的前提下将大模型KV缓存占用缩减至1/6，并实现最高8倍的推理速度提升。该技术适配Gemma、Mistral等主流模型，显著降低部署成本，推动AI在长文本处理与复杂对话中的应用突破。

aibase

2026-03-26 13:58

DeepSeek发布新论文模型V4引关注

DeepSeek团队联合北大、清华发布新论文，提出名为DualPath的创新推理系统，通过优化KV-Cache读取机制，显著提升大模型在智能体任务中的推理速度。该系统将离线推理吞吐量最高提升1.87倍，在线服务性能平均提升1.96倍，为解决AI智能体实际应用中的性能瓶颈提供了高效解决方案。

中国能源网

2026-02-27 16:54

国产算力再攀高峰摩尔线程携手硅基流动实现DeepSeek V3 671B高效推理单卡性能达国际顶尖水平

摩尔线程与硅基流动基于国产GPU MTT S5000，成功完成对千亿参数大模型DeepSeek V3 671B的高效适配与推理验证。通过创新应用FP8低精度推理技术，单卡性能表现亮眼，推理速度逼近国际顶尖水平，标志着国产AI算力生态从“能跑”迈向“高效跑”的关键突破，为关键领域提供了高性价比、高安全性的本土化AI部署选项。

aibase

2026-01-22 10:29

摩尔线程张建中谈大模型推理三大挑战

摩尔线程创始人张建中在首届MUSA开发者大会上指出，当前大模型推理面临迭代高速化、服务极致化和模型复杂化三大挑战，揭示了AI技术发展的关键瓶颈。

每日经济新闻

2025-12-20 19:41

直播预告| 大模型复杂推理技术: 如何重塑AI推理逻辑

本次直播将深入探讨大模型复杂推理技术的最新进展，重点介绍DeepSeek-R1等模型如何通过强化学习实现长思维链推理。中国人民大学赵鑫教授将分享慢思考技术的研究成果，施普林格·自然编辑总监常兰兰博士将介绍2025年人工智能图书资源。活动还将提供与大模型专家交流的机会，并有机会获得专业书籍和周边礼品。

机器人大讲堂

2025-08-28 21:20

通知

尊敬的用户

user

TAG:大模型推理

Moonshot AI联合清华大学发布PrfaaS架构，破解大模型算力瓶颈

Mac用户福音：Ollama整合苹果MLX框架推理提速一倍 M5芯片性能飙升

谷歌发布TurboQuant技术大模型内存占用锐减六成

DeepSeek发布新论文模型V4引关注

国产算力再攀高峰摩尔线程携手硅基流动实现DeepSeek V3 671B高效推理单卡性能达国际顶尖水平

摩尔线程张建中谈大模型推理三大挑战

直播预告| 大模型复杂推理技术: 如何重塑AI推理逻辑

快讯

中国电信董事长柯瑞文：Token经营的本质是为用户提供AI服务

“AI+制造”再提速：DeepSeek-V4上线东莞市人工智能大模型中心

全球27国526支战队参与巅峰竞技，AGIBOT WORLD CHALLENGE @ ICRA 2026线上赛成绩揭晓

帕西尼1个月发布3款触觉传感器，再度展现全球具身感知龙头姿态

软银拟推出AI新实体并计划年内上市，估值或达千亿美元

中国机器人产业的梦想，是成为“打工仔”替代者

车展季·大咖说丨芯擎科技CEO汪凯：座舱芯片比智驾芯片更复杂，舱驾融合价值在中低端市场更突出

Rabobank：欧盟AI雄心面临瓶颈，电网成最大约束

共享基经｜同主题ETF对比（十）：名称同样包含“科创芯片”，这两个指数有何不同？

钉钉发布 AI 录音硬件 DingTalk A1 Pro，售价1299元，支持手机反向充电

推荐专栏

爱力方

机器人大讲堂

user

TAG:大模型推理

Moonshot AI联合清华大学发布PrfaaS架构，破解大模型算力瓶颈

Mac用户福音：Ollama整合苹果MLX框架 推理提速一倍 M5芯片性能飙升

谷歌发布TurboQuant技术 大模型内存占用锐减六成

DeepSeek发布新论文 模型V4引关注

国产算力再攀高峰 摩尔线程携手硅基流动实现DeepSeek V3 671B高效推理单卡性能达国际顶尖水平

摩尔线程张建中谈大模型推理三大挑战

直播预告| 大模型复杂推理技术: 如何重塑AI推理逻辑

快讯

中国电信董事长柯瑞文：Token经营的本质是为用户提供AI服务

“AI+制造”再提速：DeepSeek-V4上线东莞市人工智能大模型中心

全球27国526支战队参与巅峰竞技，AGIBOT WORLD CHALLENGE @ ICRA 2026线上赛成绩揭晓

帕西尼1个月发布3款触觉传感器，再度展现全球具身感知龙头姿态

软银拟推出AI新实体并计划年内上市，估值或达千亿美元

中国机器人产业的梦想，是成为“打工仔”替代者

车展季·大咖说丨芯擎科技CEO汪凯：座舱芯片比智驾芯片更复杂，舱驾融合价值在中低端市场更突出

Rabobank：欧盟AI雄心面临瓶颈，电网成最大约束

共享基经｜同主题ETF对比（十）：名称同样包含“科创芯片”，这两个指数有何不同？

钉钉发布 AI 录音硬件 DingTalk A1 Pro，售价1299元，支持手机反向充电

推荐专栏

爱力方

机器人大讲堂

Mac用户福音：Ollama整合苹果MLX框架推理提速一倍 M5芯片性能飙升

谷歌发布TurboQuant技术大模型内存占用锐减六成

DeepSeek发布新论文模型V4引关注

国产算力再攀高峰摩尔线程携手硅基流动实现DeepSeek V3 671B高效推理单卡性能达国际顶尖水平