TAG:推理引擎

AI推理的“新王”驾到?当xLLM-Core,用20毫秒的延迟,向vLLM发起挑战

AI推理的“新王”驾到?当xLLM-Core,用20毫秒的延迟,向vLLM发起挑战

xLLM社区将于12月6日举办首届线下Meetup,重磅发布自研开源推理引擎xLLM-Core。该引擎支持MoE、文生图、文生视频全场景,通过统一计算图和Mooncake缓存方案实现P99延迟低于20ms,较vLLM性能提升42%,吞吐量提升2.1倍。现场将分享京东双11实战案例,展示峰值每秒40k请求处理能力,并发布Apache 2.0开源版本。

爱力方 2025-11-25 16:39
0
0