TAG:开源模型

谷歌深化医疗AI开源布局:MedGemma 1.5提升医学影像性能,发布语音转写模型MedASR

谷歌深化医疗AI开源布局:MedGemma 1.5提升医学影像性能,发布语音转写模型MedASR

谷歌发布新一代开源医疗大模型MedGemma 1.5和语音识别模型MedASR,强化医学影像分析能力并优化临床语音转写。MedGemma 1.5支持多模态数据,辅助筛查诊断;MedASR提升病历录入效率。两者均基于合规数据开源发布,推动医疗AI普惠应用。

2026-01-14 16:42
0
0

千寻智能开源Spirit v1.5 重塑国产具身模型发展规则

千寻智能开源Spirit v1.5 重塑国产具身模型发展规则

千寻智能开源Spirit v1.5具身智能大模型,在RoboChallenge基准测试中以66.09分超越Pi0.5夺冠,标志着国产模型在真实任务操作上取得关键突破。该模型已应用于宁德时代生产线,并通过开源推动产业生态发展,实现从实验室演示到真实场景可用的跨越。

2026-01-14 11:54
0
0

百川智能发布Baichuan-M3 医疗AI应用迎突破

百川智能发布Baichuan-M3 医疗AI应用迎突破

百川智能发布新一代开源医疗增强大语言模型Baichuan-M3,在问诊能力、医疗幻觉控制等四项核心评测中超越GPT-5.2,表现优于人类医生,标志着医疗AI正式进入应用主战场。

2026-01-13 16:39
0
0

开源模型评测超越GPT-4 具身智能迎来突破时刻

开源模型评测超越GPT-4 具身智能迎来突破时刻

文章报道了自变量开源端到端具身智能基础模型WALL-OSS在RoboChallenge评测中超越pi0,排名第二,并在多个单动作任务中位列第一。文章探讨了开源模型在推动具身智能产业生态繁荣、降低行业创新成本以及加速技术落地方面的关键作用,分析了其彻底开源策略对行业发展的深远意义。

2026-01-12 18:44
0
0

Lightricks 开源AI视频模型LTX-2 支持20秒音视频一体化合成

Lightricks 开源AI视频模型LTX-2 支持20秒音视频一体化合成

以色列科技公司Lightricks开源了其最新AI视频模型LTX-2,该系统能够根据文本描述直接生成长达20秒的高清视频,并实现音画完全同步。通过双流并行计算架构和190亿参数,LTX-2突破了传统音画解耦流程,合成速度最高可达竞品的18倍,为内容创作者提供了高效、自主的视听内容生成工具。

2026-01-12 15:49
420
0

中国具身大模型发展路径初探:自变量探索可复制模式

中国具身大模型发展路径初探:自变量探索可复制模式

文章探讨了中国具身大模型的发展路径,以自变量开源模型WALL-OSS在RoboChallenge基准测试中的优异表现为例,分析了开源策略如何推动行业协同与商业化进程。文章指出,开源模型通过提供完整解决方案,赋能全球开发者,加速具身智能从实验室走向现实应用,并强调了统一评测标准对行业发展的关键作用。

2026-01-09 16:09
3
0

30B开源模型性能超越1T巨头,MiroThinker 1.5大幅降低AI推理成本

30B开源模型性能超越1T巨头,MiroThinker 1.5大幅降低AI推理成本

MiroThinker 1.5是一款仅30亿参数的开源AI模型,通过创新的交互式扩展技术,实现了媲美万亿参数模型的性能,同时将推理成本降低至原来的1/20。它采用多轮推理与自我纠错机制,在复杂任务中表现出色,标志着AI从参数规模竞争转向智能密度竞争的重要里程碑。

爱力方 2026-01-08 18:20
16
0

开源版Veo 3登场:LTX-2发布,20秒4K音画同步AI视频本地可生成

开源版Veo 3登场:LTX-2发布,20秒4K音画同步AI视频本地可生成

Lightricks团队开源LTX-2模型,这是一个支持一次性生成长达20秒4K高清视频的完整音视频基础模型,实现了画面、声音与口型的完美同步。模型权重和代码已全部开源,支持本地部署,在消费级显卡上即可流畅运行,大幅降低了AI视频创作的门槛。

2026-01-07 18:21
29
0

Liquid AI 发布 LFM2.5:一款面向边缘设备的小型 AI 模型家族

Liquid AI 发布 LFM2.5:一款面向边缘设备的小型 AI 模型家族

Liquid AI 发布了 LFM2.5 小型基础模型家族,专为边缘设备和本地部署设计。该系列包括文本、视觉语言和音频语言变种,在 GPQA、MMLU Pro 等基准测试中表现优异,超越了同类开源模型。模型采用高效架构,支持多模态任务和区域优化,适用于文档理解、实时语音对话等多种边缘计算场景。

2026-01-07 17:43
3
0

英伟达发布物理AI新成果 黄仁勋称迎来ChatGPT时刻

英伟达发布物理AI新成果 黄仁勋称迎来ChatGPT时刻

英伟达在CES 2025上宣布开源其首个推理VLA模型Alpamayo 1,为自动驾驶领域带来突破。该模型通过类人思维方式处理复杂驾驶场景,提供可解释的决策过程,旨在加速安全自动驾驶技术开发。黄仁勋表示,物理AI的ChatGPT时刻已到来,机器开始理解、推理并在真实世界中行动。

2026-01-06 15:16
0
0

多模态大模型最新评测结果公布 Gemini-3-Pro稳居榜首 国产模型豆包、商汤表现亮眼 Qwen3-VL成为首个开源高分模型

多模态大模型最新评测结果公布 Gemini-3-Pro稳居榜首 国产模型豆包、商汤表现亮眼 Qwen3-VL成为首个开源高分模型

SuperCLUE-VLM发布2025年12月多模态视觉语言模型评测榜单,谷歌Gemini-3-Pro以83.64分断层领先。国产模型中,商汤SenseNova V6.5Pro和字节豆包大模型表现亮眼,分别位列第二、第三。阿里Qwen3-VL成为首个总分突破70分的开源模型,推动技术民主化。榜单揭示了多模态竞赛进入实用化新阶段,视觉推理仍是关键瓶颈。

2025-12-31 11:36
0
0

腾讯混元1.5开源 手机端侧AI实现实时多语互译

腾讯混元1.5开源 手机端侧AI实现实时多语互译

腾讯发布并开源混元翻译模型1.5版,支持33种语言互译,专为移动端侧部署优化。其轻量级1.8B版本仅需1GB内存即可实现手机离线实时翻译,性能媲美主流闭源模型。模型具备自定义术语库和优秀上下文理解能力,已在腾讯会议等产品中应用,为多语种实时翻译带来突破。

爱力方 2025-12-30 17:14
23
0

Resemble AI 开源旗舰 TTS 模型 防伪水印助力商业应用

Resemble AI 开源旗舰 TTS 模型 防伪水印助力商业应用

Resemble AI开源旗舰级TTS模型Chatterbox Turbo,仅需5秒参考音频即可精准克隆语音,延迟低至150毫秒,性能超越闭源竞品。模型内置防伪水印功能,支持商业化应用,旨在重塑语音合成市场格局。

2025-12-29 10:16
0
0

Liquid AI发布LFM2-2.6B-Exp实验模型 性能超越百亿级巨兽

Liquid AI发布LFM2-2.6B-Exp实验模型 性能超越百亿级巨兽

Liquid AI发布仅2.6B参数的实验性模型LFM2-2.6B-Exp,该模型通过纯强化学习优化,在指令跟随、知识问答和数学推理等基准测试中表现卓越,甚至超越数百亿参数的大型模型。专为边缘设备设计,支持高效本地部署,已完全开源,加速高性能AI向设备端普及。

爱力方 2025-12-26 17:16
10
0

阿里通义开源语音交互大模型Fun-Audio-Chat-8B 超低延迟情绪识别

阿里通义开源语音交互大模型Fun-Audio-Chat-8B 超低延迟情绪识别

阿里通义实验室开源Fun-Audio-Chat-8B语音交互大模型,采用端到端S2S架构实现超低延迟对话,具备情感感知与语音函数调用能力,性能领先开源竞品并媲美顶级闭源模型,适用于情感陪伴、智能控制等多场景。

爱力方 2025-12-24 17:06
0
0