TAG:开源项目

vLLM-Omni开源:把扩散模型、ViT、LLM塞进一条流水线,多模态推理一次跑完

vLLM-Omni开源:把扩散模型、ViT、LLM塞进一条流水线,多模态推理一次跑完

vLLM团队推出首个全模态推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念变为可落地的代码。该框架采用解耦流水线架构,支持模态编码器、LLM核心和模态生成器独立部署,资源弹性伸缩,显存利用率最高提升40%。通过Python装饰器@omni_pipeline,开发者仅需三行代码即可将单模态模型拼装成多模态应用,吞吐量提升2.1倍,延迟降低35%。开源项目已上线GitHub,支持PyTorch2.4+和CUDA12.2,未来计划扩展视频与语音模型,助力多模态AI应用快速落地。

2025-12-02 16:25
0
0

阿里巴巴开源 Z-Image 图像模型:支持中英双语文字渲染

阿里巴巴开源 Z-Image 图像模型:支持中英双语文字渲染

阿里巴巴通义实验室开源Z-Image图像生成模型,仅6B参数实现接近20B模型的视觉质量。采用单流DiT架构,支持中英双语文字渲染,8步采样即可生成高清图像,显存占用低于16GB。模型包含Turbo、Base和Edit三大变体,在消费级显卡上流畅运行,显著降低AI图像生成技术的应用门槛。

爱力方 2025-11-27 15:56
29
0

清华等联合发布UltraRAG 2.1!全球首个基于MCP架构的多模态RAG框架,YAML文件即可构建智能检索系统

清华等联合发布UltraRAG 2.1!全球首个基于MCP架构的多模态RAG框架,YAML文件即可构建智能检索系统

清华大学等机构联合发布UltraRAG 2.1,这是全球首个基于MCP架构的开源多模态RAG框架。该框架通过简单的YAML配置文件即可构建智能检索系统,无需编写代码,大幅降低技术门槛。支持文本、图像、PDF等多模态数据处理,内置检索-生成-评估一体化流水线,提供全链路可视化工作流和标准化评估体系,适用于企业知识库构建和科研分析等场景。

2025-11-12 14:54
0
0

Meta发布Omnilingual ASR系统:实现1600种语言的语音识别

Meta发布Omnilingual ASR系统:实现1600种语言的语音识别

Meta推出革命性的Omnilingual ASR自动语音识别系统,支持1600种语言的语音转录,其中500种语言首次获得AI覆盖。该系统采用上下文学习技术,用户只需提供少量样本即可扩展识别能力,理论上可支持超过5400种语言。Meta同时开源了包含350种语言的大型数据集,帮助开发者为特定地区构建定制化语音识别模型,显著推进全球语言无障碍进程。

爱力方 2025-11-11 12:25
34
0

400元遥操95%机械臂!上海交大推出开源项目U-Arm,打造通用、低成本的人机遥操作接口

400元遥操95%机械臂!上海交大推出开源项目U-Arm,打造通用、低成本的人机遥操作接口

上海交通大学团队推出开源项目U-Arm,仅需400元即可搭建通用遥操作系统,适配95%主流机械臂。该系统通过3种关节构型覆盖市面主流机械臂类型,已在XArm6、Dobot CR5等真机上验证。相比手柄操作效率提升39%,能采集更自然的运动轨迹数据,硬件设计优化了可维护性和寿命,全部开源可复现。

2025-10-21 17:26
28
0

5000字吃透小智AI,开启AI硬件赚钱之路

5000字吃透小智AI,开启AI硬件赚钱之路

本文深度解析小智AI开源项目的崛起历程,探讨这一草根AI硬件如何通过低门槛、高自由度的开源模式颠覆传统硬件生态。文章揭示小智AI如何在两个月内接入10万台设备,带动DIY创新热潮,并分析其如何重塑AI玩具产业链,为创业者开启AI硬件赚钱新路径。

2025-09-29 10:29
0
0

宇树直接开源“王炸”技术,机器人圈疯了

宇树直接开源“王炸”技术,机器人圈疯了

宇树科技开源UnifoLM-WMA-0架构,这是专为通用机器人学习设计的世界模型-动作架构。该架构具备仿真引擎和策略增强两大核心功能,支持决策模式和仿真模式,能够预测机器人与环境的物理交互并生成高保真反馈。此次开源有望推动全球具身智能行业发展,为机器人控制算法优化提供重要基础。

2025-09-17 16:15
7
0