TAG:AI模型
英伟达发布AI新框架 8亿参数模型优化工具管理
英伟达与香港大学联合发布8亿参数AI模型Orchestrator,通过ToolOrchestra强化学习框架训练,能够智能协调多种工具和大型语言模型解决复杂问题。该模型在基准测试中以更低成本实现更高准确性,并能根据用户偏好灵活选择工具,为企业提供经济高效的AI解决方案。
微软发布0.5B参数语音模型 近乎实时生成自然语音
微软发布VibeVoice-Realtime-0.5B,一款仅0.5B参数的实时文本转语音模型,能在约300毫秒内开始发声,实现接近实时的流畅语音生成。该模型支持中英文,具备高自然音质、多角色对话和情感表达能力,最长可稳定输出90分钟语音,适用于智能助手、播客等场景。
亚马逊Nova 2模型家族发布,技术性能全面领先
亚马逊在2025年re:Invent大会上发布了全新的Nova 2模型家族,包括Nova2Lite、Nova2Pro等四款模型。该系列在推理、多模态处理、代码生成和Agent任务方面展现出领先的价格性能比,并在多项基准测试中与Claude、GPT-5、Gemini等顶尖模型持平或更优。新模型还支持实时网页查找和代码执行,确保信息的准确性和时效性。
亚马逊Nova 2系列模型发布 AI性能再创新高
亚马逊云科技在re:Invent2025大会上发布了Nova2系列自研大模型,涵盖文本、图像、视频、语音多模态场景,并首次内置网页检索与代码执行能力。该系列包括Nova2Lite、Nova2Pro、Nova2Sonic和Nova2Omni四款模型,在多项基准测试中性能对标行业领先产品,同时宣称具有更高的性价比。AWS还推出了Nova Forge定制训练服务,旨在降低企业自建大模型的成本。
Nvidia 发布新 AI 模型Alpamayo-R1,推动自动驾驶研究向前迈进
Nvidia在NeurIPS AI大会上发布了专为自动驾驶研究设计的开放推理视觉语言模型Alpamayo-R1。该模型基于Cosmos-Reason,能够处理文本和图像,帮助车辆感知环境并做出类似人类的决策,旨在推动四级自动驾驶的实现。Nvidia还提供了Cosmos Cookbook等资源,支持开发者训练和使用AI模型,加速物理AI领域的发展。
你的“AI剪辑师”上线了!字节跳动Vidi2模型:一句话搞定视频编辑,零门槛出大片
字节跳动发布专用于视频理解的AI模型Vidi2,拥有120亿参数,具备精细时空定位功能,能处理数小时原始素材并理解故事脉络。该模型可根据简单提示自动生成TikTok短视频或电影片段,在超长视频理解任务上领先商业模型17.5个百分点,已应用于TikTok的智能剪辑功能,实现高光提取、内容重构等自动化编辑。
你的下一张海报,价值0.24美元:谷歌用Nano Banana Pro证明,专业AI才是“最聪明的钱”
谷歌发布新一代图像生成模型Nano Banana Pro,基于Gemini 3架构,支持最高4K分辨率输出、14对象融合和5人身份一致性保持。新增联网搜索功能可实时抓取网络信息生成图表,并集成SynthID与C2PA双重水印验证。定价调整为1080p/2K每张0.139美元,4K每张0.24美元,已在NotebookLM、Slides等谷歌生态中集成。
Gemini 3“超前点映”效果炸场:一次性游戏缝合+SVG Switch引爆全网
谷歌尚未发布的Gemini 3通过Canvas功能实现'超前点映',展示出强大的AI能力:可将《我的世界》与塔防机制即时缝合为可交互网页游戏,单文件复刻Switch模拟器运行宝可梦,并生成响应式网页、黑洞可视化等,所有输出均为单HTML文件。SVG绘制能力超越Claude和GPT,消除矢量拼接感。谷歌CEO暗示即将官宣,伯克希尔罕见加仓43亿美元,预计本月22日正式发布。
微博发布VibeThinker-1.5B:轻量化AI模型探索大语言模型替代路径
微博AI部门推出开源VibeThinker-1.5B模型,仅15亿参数却在数学和代码任务上表现卓越,超越多个大型商业模型。该模型采用创新的谱-信号原则训练框架,后期训练成本仅7800美元,大幅降低AI应用门槛,为研究者和企业提供了高效低成本的语言模型解决方案。
StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验
StepFun AI发布开源音频编辑模型Step-Audio-EditX,这是一个3B参数的创新模型,将音频编辑转化为类似文本编辑的直观操作。通过双代码本标记器和混合语料库训练,模型实现了对语音情感、风格和音色的精确控制。采用大边距学习和强化学习技术,在Step-Audio-Edit-Test基准测试中展现出卓越的编辑效果,还能提升其他TTS系统的音频质量。
谷歌的增长配方:Nano Banana 2预告背后,一场关于“融合”的闪电战
谷歌即将发布新一代AI图像生成模型Nano Banana2,这是Gemini平台的重要升级。该模型延续前代优势,优化视觉生成速度和艺术风格多样性,支持多轮对话交互和角色保持功能,可与Gemini3.0深度整合提升多模态处理能力。自首代模型推出以来已吸引超1000万用户,完成2亿次图像编辑,新版有望进一步推动创意产业发展并标注水印确保透明度。
Claude「最香」模型发布,速度翻倍价格大砍,编程能力直逼 GPT-5
Anthropic发布Claude Haiku 4.5模型,在保持高性能的同时实现速度翻倍和价格大幅降低。该模型在SWE-bench编码测试中达到73%的成绩,与Claude Sonnet 4和GPT-5处于同一水平,特别适合实时任务处理如聊天助手和结对编程。虽然数学能力稍弱,但其出色的性价比使其成为开发者的理想选择。