TAG:开源技术

商汤进军具身智能领域 联合创始人执掌大晓机器人

商汤进军具身智能领域 联合创始人执掌大晓机器人

商汤科技正式进军具身智能领域,推出全新品牌“大晓机器人”,由联合创始人王晓刚担任董事长。公司将于12月18日发布ACE技术范式、具身超级大脑模组A1,并开源国内首个商业应用的“开悟”世界模型3.0,旨在解决机器人智能大脑泛化性不足的行业难题,推动具身智能在安防、巡检等工业场景的快速落地。

2025-12-05 10:18
0
0

大晓机器人亮相,首席科学家领衔打造国内首款开源商用世界模型

大晓机器人亮相,首席科学家领衔打造国内首款开源商用世界模型

大晓机器人将于12月18日正式亮相,发布包括全球首创ACE技术范式及国内首个开源且商业落地的‘开悟’世界模型3.0在内的多项领先技术。公司由商汤科技联合创始人王晓刚出任董事长,AI科学家陶大程担任首席科学家,旨在构建自主可控的具身智能产业体系,并推出具身超级大脑模组A1,推动在安防、巡检等场景的规模化商业应用。

2025-12-04 14:48
0
0

告别视频扭曲与“AI电音”:巨人网络多模态模型让虚拟世界更真实

告别视频扭曲与“AI电音”:巨人网络多模态模型让虚拟世界更真实

巨人网络AI Lab联合清华大学和西北工业大学发布三项多模态生成技术:YingVideo-MV实现音乐驱动视频生成并消除人物畸变,YingMusic-SVC提供零样本歌声转换确保真实歌曲可用,YingMusic-Singer支持任意歌词生成自然歌声。这些开源技术显著提升了音视频创作的质量与灵活性。

爱力方 2025-11-27 15:41
0
0

语音交互的“GPT时刻”:当MOSS学会“直接听、直接说”,传统方案全面过时

语音交互的“GPT时刻”:当MOSS学会“直接听、直接说”,传统方案全面过时

复旦大学MOSS团队开源国内首个端到端语音到语音大模型MOSS-Speech,采用创新层拆分架构,无需传统ASR→LLM→TTS流程即可实现语音问答、情绪模仿和笑声生成。在ZeroSpeech2025评测中WER低至4.1%,情感识别准确率91.2%,中文口语MOS分达4.6接近真人水平。提供48kHz超采样和16kHz轻量版本,支持单张RTX4090实时推理,延迟低于300ms,已开放商用许可。

爱力方 2025-11-20 16:51
0
0

Character AI联合耶鲁大学发布Ovi:实现音画同步的视频生成模型

Character AI联合耶鲁大学发布Ovi:实现音画同步的视频生成模型

Character AI与耶鲁大学联合推出开源项目Ovi,这是一项革命性的音画同步视频生成技术。通过创新的双骨干交叉模态融合架构,Ovi实现了音频和视频的并行处理与实时交互,彻底解决了传统方法中音画不同步的问题。该技术采用扩散变换器架构和旋转位置嵌入技术,确保嘴唇运动与发音等细节的精确匹配,为高质量视频生成提供了全新解决方案。

2025-11-14 10:53
1
0

微博发布VibeThinker-1.5B:轻量化AI模型探索大语言模型替代路径

微博发布VibeThinker-1.5B:轻量化AI模型探索大语言模型替代路径

微博AI部门推出开源VibeThinker-1.5B模型,仅15亿参数却在数学和代码任务上表现卓越,超越多个大型商业模型。该模型采用创新的谱-信号原则训练框架,后期训练成本仅7800美元,大幅降低AI应用门槛,为研究者和企业提供了高效低成本的语言模型解决方案。

2025-11-13 10:59
0
0

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验

StepFun AI发布开源音频编辑模型Step-Audio-EditX,这是一个3B参数的创新模型,将音频编辑转化为类似文本编辑的直观操作。通过双代码本标记器和混合语料库训练,模型实现了对语音情感、风格和音色的精确控制。采用大边距学习和强化学习技术,在Step-Audio-Edit-Test基准测试中展现出卓越的编辑效果,还能提升其他TTS系统的音频质量。

2025-11-10 10:50
0
0

美团开源多模态大模型LongCat-Flash-Omni:实时交互性能突破

美团开源多模态大模型LongCat-Flash-Omni:实时交互性能突破

美团开源多模态大模型LongCat-Flash-Omni在多项基准测试中超越闭源竞品,实现开源即SOTA突破。该模型支持文本、语音、图像、视频的实时融合处理,具备跨模态精准推理能力,在噪声环境语音识别和模糊图像理解方面表现优异。通过端到端统一架构和Flash推理引擎优化,在消费级GPU上即可实现近乎零延迟的交互体验。

爱力方 2025-11-05 15:13
0
0

华为发布AI推理新技术 将于今年9月正式开源

华为发布AI推理新技术 将于今年9月正式开源

华为发布AI推理创新技术UCM(推理记忆数据管理器),这是一款以KV Cache为中心的推理加速套件,能有效提升推理效率并降低成本。该技术计划于2025年9月正式开源,已在多个行业场景中试点应用。文章还探讨了AI推理在行业落地中的挑战及未来发展趋势。

2025-08-13 10:25
0
0