Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

329篇图像、视频生成论文,今年CVPR最火的研究主题是这些

图像与视频合成、3D 视觉、人体行为识别、视觉与语言推理等研究方向论文最多,属于最热门的方向,体现当前学界对视觉生成、三维感知人机交互等方向的高度重视。另外,多模态学习、以人为本的设计和自适应机器人可能构成人形机器人的未来。

一年一度的计算机视觉模式识别会议(CVPR)一直是 CV 界前沿研究的灯塔。

CVPR 2024 录用结果显示,今年共有 2719 篇论文被接收,录用率 23.6%。

那么大模型时代,今年的研究主题有哪些变化?

最近,乔治亚理工学院计算机学院(College of Computing, Georgia Institute of Technology)对 CVPR 2024 录用数据的统计分析,直观呈现了当前计算机视觉领域的研究热点分布情况。

图片

图表显示,论文主题涵盖 36 个主题领域。

从主题分布来看,论文数量最多的是图像和视频合成与生成(Image and video synthesis and generation)主题,一共 329 篇。

其次是三维视觉(3D from multi-view and sensors),一共 276 篇, 依旧延续去年顶会的热度。

事实上,上面两个方向也是目前计算机视觉研究的重点。

接下来 , 人体行为识别(Humans: Face, body, pose, gesture, movement)一共 202 篇。该领域研究在人机交互、机器人、监控等领域有着广泛应用。

视觉、语言与语言推理(Vision, language, and reasoning)一共有 152 篇。这是一个交叉研究方向,旨在帮助计算机像人一样理解、关联视觉和语言信息,完成推理、问答、决策等高层认知任务。

 数据表明,这个领域正受到学界高度关注。

比如,视觉推理,让机器具备基于视觉的逻辑推理、常识推理能力,对于智能教育、智慧法庭、辅助决策等高端应用意义重大;

视觉语言导航,可用于室内外机器人导航、头显设备的导航、无人机巡检;

多模态信息融合 (Multimodal Fusion)实现全面、准确的场景理解;

视觉语言预训练模型 (Vision-Language Pretraining),试图实现更高层次的语义理解和任务处理能力,为人工智能技术的发展和应用拓展了新的边界。

底层视觉(Low-level vision)一共 131 篇。传统的识别检测、分割等基础任务论文数量相对减少,但仍是研究重点。

值得一提的是,一些研究也在探索新型视觉传感器出现后,与之相适应的新视觉数据处理和建模方法。

正如接收论文 “State Space Models for Event Cameras  ” 讨论的,事件相机等技术的发展表明,机器人感知周围环境的方式得到了显着增强。这些创新将有助于机器人、自动驾驶在复杂、动态环境中实现更好的导航和交互。

鉴于上半年人形机器人大热,我们也看了看机器人 + AI 。

数据显示,自动驾驶有 87 篇。自动驾驶是机器人领域最热门的应用方向之一,需要视觉感知、决策规划、控制等多项 AI 技术的支持。

机器人(Robotics) 主题一共 29 篇,涉及机器人视觉、导航、操纵等研究,视觉感知是机器人实现智能化的关键。

比如,“DifFlow3D:Towards Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based Refinement” 探讨了提高 3D 场景理解可靠性的方法,这对于机器人在不可预测环境中的安全操作至关重要。

Embodied vision: Active agents, simulation 一共 27 篇。看来,通过视觉、动作等多模态交互,让机器人在仿真或真实环境中学习,是一个新兴的研究范式。

正如我们在不少视频中刚看到的,机器人也越来越多地具备同时处理多项任务的能力。

“ManipLLM:Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation” 等论文也呈现出一种转变 —— 集成各种数据类型(文本、视觉、传感器数据)、在环境中执行复杂操作和交互的模型。

“Smart Help: Strategic Opponent Modeling for Proactive and Adaptive Robot Assistance in Households” 直接聚焦于家庭服务机器人中的对抗建模问题,旨在实现更加主动、适应性强的机器人助手。

Video: Action and event understanding,一共 78 篇。对于机器人而言,理解视频中的动作、事件语义,对实现智能人机交互非常关键,仍然是一个核心研究主题。

“Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives” 展示了从多个角度理解人类行为的努力(以人为本的交互 ),增强了机器人学习和适应人类行为的能力。

Vision + graphics 一共 56 篇。3D 重建、渲染等技术在机器人仿真、VR/AR 等方面有重要应用。

Vision applications and systems 一共 44 篇,机器人是视觉技术的主要应用方向之一。

CVPR 2024 对 AI 和机器人技术的关注,凸显了先进计算模型、感知增强技术以及对人类场景深度理解等方面与机器人系统的逐步整合。这种整合正在为开发更加直觉化、功能更强、适应性更高的机器人铺平道路。

参考链接:https://public.tableau.com/views/CVPR2024/CVPRtrends?%3AshowVizHome=no&continueFlag=6a947f6367e90acd982f7ee49a495fe2

产业CVPR 2024
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

多模态学习技术

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

人体行为识别技术

活动识别旨在通过对代理人的行为和环境条件的一系列观察来识别一个或多个代理人的行动和目标。自20世纪80年代以来,该研究领域引起了多个计算机科学界的关注,因为它具有为许多不同应用提供个性化支持的优势,以及它与许多不同研究领域的联系,如医学,人机交互或社会学。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

视觉语言导航技术

视觉语言导航(VLN)是指在真实的3D环境中引导智能体执行自然语言指令的任务。

视觉推理技术

视觉推理是指为了得出某个结论而操纵一个人对一个物体的心理印象的过程。

推荐文章
暂无评论
暂无评论~