Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大模型时代的计算机视觉!CVPR 2024线上分享会全日程公布

自从 OpenAI 发布 ChatGPT 以来,整个技术社区对大模型、AIGC 的关注越来越高。

大模型时代,计算机视觉(CV)领域的热点话题也在不断的发生着变化。

面对应接不暇的研究,我们如何才能以最快的时间了解 AI 领域的最新科研成果与发展趋势?参加顶会论文分享会就是一个不错的选择。

作为计算机视觉领域的顶级会议,CVPR 每年都会吸引大量研究机构和高校参会。据统计,今年共提交了 11532 份论文,2719 篇被接收,录用率为 23.6%。

为了给国内 CV 社区从业者搭建一个自由轻松的学术交流平台,机器之心计划于 2024 年 6 月 1 日 9:00-17:00 组织「CVPR 2024 线上论文分享会」,广邀 AI 社区成员参与学习。

本次论文分享会设置 Keynote、 论文分享环节,就业内关注的 CV 热门主题邀请顶级专家、论文作者与观众做学术交流。

今天,分享会全日程、Keynote 分享嘉宾及演讲主题正式公布。

图片

Keynote 嘉宾及演讲主题

上午 Keynote 1:金小刚 数字人建模动画关键技术

分享人介绍:金小刚,浙江大学计算机科学与技术学院教授,博士生导师。浙江大学 - 腾讯游戏智能图形创新技术联合实验室主任,浙江省虚拟现实产业联盟理事长。第九届霍英东青年教师基金、浙江省杰出青年基金获得者,入选教育部新世纪优秀人才支持计划。在 ACM TOG (Proc. of Siggraph) 等国际重要学术刊物上发表论文 180 多篇。获省部级一等奖一次,二等奖二次。

分享摘要:数字人是近年来的研究热点,可广泛用于计算机动画、计算机游戏、虚拟主播、虚拟客服等领域。报告将介绍本人所在研究小组在视频肖像的胖瘦调整、肖像双下巴去除、肖像头发去除、用于睫毛抠图的数据集与基线方法、基于扩散模型的文生三维肖像、高精度人体运动神经求解器、实时人体运动补间等方面的一些最新研究进展。

上午 Keynote 2:朱俊彦 Enabling Collaboration between Creators and Generative Models

分享人介绍:Jun-Yan Zhu is an Assistant Professor at CMU’s School of Computer Science. Prior to joining CMU, he was a Research Scientist at Adobe Research and a postdoc at MIT CSAIL. He obtained his Ph.D. from UC Berkeley and B.E. from Tsinghua University. He studies computer vision, computer graphics, and computational photography. His current research focuses on generative models for visual storytelling. He has received the Packard Fellowship, the NSF CAREER Award, the ACM SIGGRAPH Outstanding Doctoral Dissertation Award, and the UC Berkeley EECS David J. Sakrison Memorial Prize for outstanding doctoral research, among other awards.

分享摘要:Large-scale generative visual models, such as DALL・E and Stable Diffusion, have made content creation as little effort as writing a short text description. Meanwhile, these models also spark concerns among artists, designers, and photographers about job security and proper credit for their contributions to the training data. This leads to many questions: Will generative models make creators’ jobs obsolete? Should creators stop publicly sharing their work? Should we ban generative models altogether?

In this talk, I argue that human creators and generative models can coexist. To achieve it, we need to involve creators in the loop of both model inference and model training while crediting their efforts for their involvement. I will first explore our recent efforts in model customization, which allows creators to freely control the model’s behavior by adding, altering, or removing concepts and rules. I will demonstrate several applications, including customizing models with multiple personal concepts and removing copyrighted content. I will then discuss our data attribution algorithm for assessing the influence of each training image for a generated sample. Collectively, we aim to allow creators to leverage the models while retaining control over the creation process and data ownership. 

下午 Keynote 1:芦清林 腾讯混元文生图的算法核心 ——DIT 架构解读

分享人介绍:芦清林博士,带领多媒体创作团队,负责腾讯混元文生图模型及广告创意 AI 算法研发工作。在计算机视觉机器学习,AIGC 方面有丰富的研究经历,曾发表 10 余篇会议和期刊论文,数十项专利,支撑腾讯广告业务发展。

分享摘要:

1、趋势:视觉生成技术的新篇章 ——DIT

2、混元 DIT 三大升级

3、效果展示 & 定量分析 ——demo

4、全面开源

下午 Keynote 2:盛律 Multimodal Large Language Models Meets Embodied Agents

分享人介绍:盛律,北京航空航天大学 “卓越百人” 副教授,入选北航青年拔尖计划。研究方向是三维视觉、多模态大模型和具身智能。在 TPAMI/IJCV 以及 CVPR/ICCV/ECCV 等重要国际期刊和会议发表论文 50 余篇,含多篇会议口头报告或亮点论文。谷歌引用超 4900 次。担任 ACM Computer Surveys 副编,CVPR 2024/ECCV 2024/ACM MM 2024 领域主席等。主持或参与多项国家自然科学基金、科技部重点研发计划等项目。

分享摘要:在多模态大模型和生成模型的加持下,围绕具身智能体的研究工作从传统的抓取、导航等任务,扩展到在复杂多模态环境中通用交互任务的解决。在本次报告中,讲者将介绍面向具身智能体的多模态大模型及其多模态多任务高效微调方法,并以此为基础探讨在以 Minecraft 为代表的仿真环境中实现具身智能体的设计思路,和在真实环境下实现具身机器人泛化操作的有益尝试。最后,报告将展望端到端具身大模型,讨论其中的机会和挑战。

参与方式

此次线上论文分享会将在机器之心以及黄大年茶思屋两个平台进行直播,欢迎大家关注、预约。

图片
产业CVPR
相关数据
朱俊彦人物

MIT电气工程与计算机科学系计算机科学与人工智能实验室博士后。研究重点:计算机视觉、计算机图形学、机器学习。CycleGAN的作者,曾获得ACM SIGGRAPH 2018最佳博士论文奖。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
Creator机构

Creator是设计师,是食品革命家,也是机器人手。它是由具有数十年机器人技术和餐厅经验的美食爱好者和工程师组成的集合。该公司解决了一些最复杂的数学和工程难题,以带来可以触及数十亿人的世界级技术。

官网,http://creator.rest/
推荐文章
暂无评论
暂无评论~