TAG:多模态分割

五校联手推出DeSa2VA框架,攻克多模态分割难题

五校联手推出DeSa2VA框架,攻克多模态分割难题

五校联合团队推出的DeSa2VA框架解决了多模态分割中的模态鸿沟问题。文章重点介绍了HO-Cap解决方案,它通过低成本RGB-D相机和AR头显,结合半自动化AI标注流程,高效生成高精度手-物交互3D数据。配套开源的HO-Cap数据集包含65.6万帧数据,覆盖多种日常物体和交互场景,大幅降低了相关研究门槛,并可直接用于机器人操作、VR/AR等领域的训练与测试。

2026-01-19 14:28
0
0

五校联合发布!DeSa2VA 框架破解多模态分割模态鸿沟!

五校联合发布!DeSa2VA 框架破解多模态分割模态鸿沟!

五校联合研究团队开发出DeSa2VA框架,通过解耦增强提示技术解决多模态分割中的模态鸿沟问题。该框架将MLLM隐藏状态显式解耦为文本和视觉表征,采用文本-视觉对齐训练和动态掩码融合方案,显著提升了图像、视频分割及视觉问答任务的准确性与鲁棒性,为计算机视觉领域提供了新的技术突破。

2025-10-28 16:17
19
0