TAG:开源AI
微软开源实时语音模型VibeVoice,0.5B参数实现300毫秒响应,支持90分钟长音频流畅播放
微软开源实时语音模型VibeVoice-Realtime-0.5B,具备极低延迟(300ms开声)、超长音频生成(90分钟不喘)和多角色对话(支持4人)等强大功能。模型轻量高效,支持中英文,情感表达自然,适用于实时语音助手、有声阅读等场景,已在HuggingFace开源。
DeepSeek连发两款新模型 V3.2正式版与Speciale同步上线
DeepSeek于12月4日无预警发布两款重磅新模型:DeepSeek-V3.2正式版与极致推理版DeepSeek-V3.2-Speciale。V3.2首次实现“思考过程”与“工具调用”深度融合,在智能体评测中登顶开源第一;Speciale版本则专注于极限推理能力,在复杂任务中表现卓越。两款模型已全平台无缝上线,用户可即时体验。
大晓机器人12月18日开源世界模型开悟3.0
大晓机器人宣布将于12月18日开源国内首个实现商业应用的“开悟”世界模型3.0(Kairos 3.0),并发布多项全球领先技术。公司汇聚陶大程等顶尖AI科学家与产业专家,通过创新的ACE技术范式和环境式数据采集,致力于解决具身智能领域的技术突破与商业化落地难题,与行业伙伴共建开放生态。
Arcee发布Trinity模型 挑战美国开源AI格局
美国初创公司Arcee AI推出Trinity系列开源模型,包括Trinity Mini和Trinity Nano Preview,采用创新的注意力优先混合专家(AFMoE)架构,提升推理能力和长文本处理效率。模型在美国训练,采用Apache2.0许可证,旨在重塑美国在开源AI领域的地位,并计划于2026年发布更大规模的Trinity Large模型。
AI推理的“新王”驾到?当xLLM-Core,用20毫秒的延迟,向vLLM发起挑战
xLLM社区将于12月6日举办首届线下Meetup,重磅发布自研开源推理引擎xLLM-Core。该引擎支持MoE、文生图、文生视频全场景,通过统一计算图和Mooncake缓存方案实现P99延迟低于20ms,较vLLM性能提升42%,吞吐量提升2.1倍。现场将分享京东双11实战案例,展示峰值每秒40k请求处理能力,并发布Apache 2.0开源版本。
正文:数据修正:中国开源 AI 模型正重构全球算力供应链
中国工程院院士倪光南在2025开放原子开发者大会上宣布,中国已成为全球开源AI大模型的最大提供者,Qwen、DeepSeek和Kimi等模型在国际评估中表现突出。文章强调开源技术正推动全球信息技术发展,中国在开源欧拉社区已拥有2100家成员和2.3万名开发者,下载量突破550万。倪光南呼吁坚持全球化战略,推动协同创新,构建技术领先的中国软件新生态。
人类知识的“终极备份”:马斯克要把整个Grokipedia,装上飞船送往火星
埃隆·马斯克宣布将xAI开发的AI百科全书'Grokipedia'完全开源,并计划将知识库刻录在耐高温介质上送往月球、火星等深空区域,打造'现代亚历山大图书馆'。该项目目前收录88.5万篇由Grok生成的实时核查文章,未来将开放API和完整数据库,实现多星球知识备份,防止文明毁灭导致的知识消失。
Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”
StepFun AI发布开源项目Step-Audio-EditX,基于30亿参数音频语言模型,首次将语音编辑转化为类似文本标记级别的可控操作。该模型通过双码本分词架构和大间隔学习技术,实现情感、语调、风格及副语言特征的精准编辑,在中文情感准确率上从57.0%提升至77.7%。项目全栈开源,大幅降低语音编辑研究门槛,让开发者能像编辑文本一样直观操作语音。
月之暗面 Kimi K2 Thinking 训练成本被曝仅 460 万美元,性能登顶人类终极考试
月之暗面开源其最强思考型大模型Kimi K2Thinking,在权威基准'H人类终极考试'中以44.9%得分超越GPT-5等国际巨头,训练成本仅460万美元,远低于行业平均水平。该模型不仅公开权重,还提供完整训练脚本和商用许可,推动AI从'巨头游戏'回归'开发者生态',标志着国产大模型在复杂推理和成本控制方面取得重大突破。
蚂蚁百灵大模型团队开源Ring-flash-linear-2.0-128K,混合注意力+MoE架构重塑长文本编程效率
蚂蚁百灵大模型团队开源Ring-flash-linear-2.0-128K,采用混合线性注意力机制和MoE稀疏架构,仅激活6.1B参数即可媲美40B密集模型性能。该模型原生支持128K上下文窗口,可扩展至512K,在代码生成和长文本编程任务中实现SOTA表现,推理速度提升3倍以上,为开发者提供高效AI编程解决方案。
π0.5宣布开源!这下机器人泛化难题有解了?
Physical Intelligence公司开源的π0.5 VLA模型通过异构数据协同训练和多模态数据融合,显著提升了机器人在复杂现实场景下的泛化能力。该模型能理解任务语义、拆解复杂流程并精准执行动作,在家庭环境中成功完成物品整理、餐具清洗等任务,为解决机器人泛化难题提供了有效方案。