TAG:多模态推理

vLLM-Omni开源:把扩散模型、ViT、LLM塞进一条流水线,多模态推理一次跑完

vLLM-Omni开源:把扩散模型、ViT、LLM塞进一条流水线,多模态推理一次跑完

vLLM团队推出首个全模态推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念变为可落地的代码。该框架采用解耦流水线架构,支持模态编码器、LLM核心和模态生成器独立部署,资源弹性伸缩,显存利用率最高提升40%。通过Python装饰器@omni_pipeline,开发者仅需三行代码即可将单模态模型拼装成多模态应用,吞吐量提升2.1倍,延迟降低35%。开源项目已上线GitHub,支持PyTorch2.4+和CUDA12.2,未来计划扩展视频与语音模型,助力多模态AI应用快速落地。

2025-12-02 16:25
0
0