MMLab

ReVersion｜图像生成中的Relation定制化

ICCV2023｜新数据集MeViS：基于动作描述的视频分割

近些年，3D 自然场景的生成出现了大量的研究工作，但是 3D 城市生成的研究工作还寥寥无几。

来自南洋理工大学和商汤科技的研究者联合提出了一种全新的文本驱动动作生成框架——ReMoDiffuse。

SHERF：基于单张图片的可泛化可驱动人体神经辐射场的新方法

不引入任何可学习参数或训练，是否可以直接实现 3D 点云的分类、分割和检测？

由统一的多模态理解，迈向通用感知智能。

零样本分割通用框架PADing

真实高精三维物体数据集 OmniObject3D

CVPR2023 Highlight，项目主页https://henghuiding.github.io/GRES/

系统全面，可读性还高！更细致地理解基于Transformer的视觉分割！