TAG:实时交互

仅需0.73秒!Unitree G1机器人随指令起舞打太极

仅需0.73秒!Unitree G1机器人随指令起舞打太极

本文介绍了TextOp框架如何实现人形机器人通过文本指令实时控制运动的技术突破。该系统允许用户在机器人执行动作过程中随时输入新命令,实现平滑过渡,平均响应时间仅0.73秒。文章详细解析了其双级协作架构、实测性能数据以及广泛的应用场景,展示了从实验室到实际落地的潜力。

2026-02-25 13:55
0
0

华为“天才少年”发布Xmax AI 全球首个虚实融合视频模型 毫秒级响应打破次元壁

华为“天才少年”发布Xmax AI 全球首个虚实融合视频模型 毫秒级响应打破次元壁

前华为“天才少年”创立的Xmax AI发布全球首个虚实融合实时交互视频模型X1,实现毫秒级响应,用户可通过手机摄像头与虚拟内容实时互动,让静态图片角色在现实空间中动态反应。该模型集成了次元互动、世界滤镜等四大功能,旨在将AI视频从被动消费转变为共创社交体验,为行业树立新标准。

2026-02-10 14:09
0
0

阿里通义千问开源Qwen3-TTS:97ms超低延迟 3秒克隆音色 改变实时AI语音格局

阿里通义千问开源Qwen3-TTS:97ms超低延迟 3秒克隆音色 改变实时AI语音格局

阿里通义千问团队开源Qwen3-TTS语音合成模型,采用端到端架构实现97ms超低延迟,支持3秒音色克隆和跨语言迁移,并能通过自然语言指令设计全新音色。该模型提供1.7B和0.6B双版本,适用于实时交互、多语言内容创作等场景,大幅降低AI语音应用门槛。

2026-01-23 13:57
35
0

腾讯推出混元世界模型1.5 实现实时交互虚拟世界

腾讯推出混元世界模型1.5 实现实时交互虚拟世界

腾讯发布了混元世界模型1.5,这是国内首个开放的实时互动体验平台。用户通过简单的文字或图片描述,即可快速生成独特的互动虚拟世界,并支持以24帧/秒的速度实时探索。模型具备长范围3D一致性和多样化交互体验,适用于游戏、影视及虚拟现实等领域。腾讯还首次开源了完整的训练体系,为AI生成内容开辟了新的可能性。

2025-12-17 18:21
7
0

美团开源多模态大模型LongCat-Flash-Omni:实时交互性能突破

美团开源多模态大模型LongCat-Flash-Omni:实时交互性能突破

美团开源多模态大模型LongCat-Flash-Omni在多项基准测试中超越闭源竞品,实现开源即SOTA突破。该模型支持文本、语音、图像、视频的实时融合处理,具备跨模态精准推理能力,在噪声环境语音识别和模糊图像理解方面表现优异。通过端到端统一架构和Flash推理引擎优化,在消费级GPU上即可实现近乎零延迟的交互体验。

爱力方 2025-11-05 15:13
0
0