Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

4位大咖Keynote、12篇论文分享,CVPR 2022论文分享会全日程来了

覆盖CV领域热点研究,欢迎大家围观!


随着人工智能的火热,CVPR、AAAI、NeurIPS、ACL 等顶级学术会议的影响力也愈来越大,每年接收论文、参会人数的数量连创新高。

作为计算机视觉(CV)领域的顶级会议,CVPR 每年都会吸引大量研究机构和高校参会,以 CVPR 2022 为例,投稿量创新高超过了一万,其中 2067 篇论文被接收。本届会议将于 6 月 19-6 月 24 日以线上线下结合的方式举办。

为了给国内 CV 社区的从业人员搭建一个自由轻松的学术交流平台,机器之心将于 6 月 18 日组织「CVPR 2022 线上论文分享会」。

本次分享会设置了 Keynote、 论文分享、企业招聘等环节,就业内关注的 CV 热门主题邀请顶级专家、论文作者与观众做学术交流。

今日,「CVPR 2022线上论文分享会」全日程正式公布,欢迎大家线上学习。




四位 Keynote 分享嘉宾的演讲主题与摘要如下(按姓名首字母排序):

林达华:New Advances in Visual Recognition and Generation




分享时间:北京时间 6 月 18 日 13:30-14:00 

分享摘要香港中文大学多媒体实验室一直致力于探索计算机视觉领域的前沿。近年来,随着新模型架构和新应用领域的涌现,我们的研究范围已经得到了显著扩展,为 3D 视觉、内容生成和小样本学习等新兴领域做出了很多贡献。在本次报告中,我将分享我们在这些领域的最新进展,并谈谈自己面对快速发展的领域时如何选择好的研究课题。

分享人介绍林达华,香港中文大学信息工程系副教授,商汤科技联合创始人,香港中文大学 - 商汤科技联合实验室主任。2012 年获得美国麻省理工学院计算机科学博士学位,2012 年到 2014 年在芝加哥丰⽥科技研究院任研究助理教授,2014 年正式加入香港中文大学。 

林达华计算机视觉、概率推断以及深度学习相关方面具有广泛的研究经历,并在多个课题上取得突出成绩。他在 CVPR/ICCV/ECCV/NIPS/PAMI 等计算机视觉机器学习顶级会议与期刊发表逾 200 篇论文。他在 2010 年获得机器学习领域最权威国际会议 NIPS 的最佳学生论文奖,并在 2009 年与 2011 年获得计算机视觉最高学术会议 ICCV 的杰出评审员奖。他曾指导香港中文大学的研究团队参加 ImageNet、ActivityNet、以及 MSCOCO 等计算机视觉领域的主要国际竞赛,获得多个冠军。此外,他也担任 CVPR、ECCV、BMVC 和 ACM Multimedia 等主要国际会议的领域主席,以及顶级国际期刊 IJCV 的编委。

张维:基于图文多模态预训练的开放世界感知研究进展



分享时间:北京时间 6 月 18 日 14:00-14:30 

分享摘要:Open-World 感知挑战的核心问题在于解决开放域的长尾学习。图文多模态的预训练方案,通过两个有效的学习策略 a) 基于语义对齐的图像 - 文本特征学习; b) 以及海量低成本互联网图文数据的自监督学习策略,实现复杂的场景语义(所有知识的高层概况)与图像的关联建模,具有零标注成本,泛化性极强的优势。在本次汇报中,我们着重介绍基于细粒度语义对齐的多模态感知预训练,在多样化下游视觉任务上的泛化性能提升。

分享人介绍:张维,华为诺亚方舟实验室技术专家,伦敦研究所所长。长期从事自动驾驶感知算法原型开发和工程落地,研究领域包含多模态视觉感知,数据高效的视觉训练范式和硬件亲和的感知网络设计等。

张兆翔:开放环境下的自适应视觉感知



分享时间:北京时间 6 月 18 日 9:30-10:00 

分享摘要:伴随着大数据的兴起和计算资源的丰富,以深度学习为代表的机器学习方法在视觉场景感知的一系列任务上取得了突破,甚至媲美人类的性能。然而,当前的视觉感知方法往往面向特定任务,需要手工标注大量的数据,进而构建从输入到输出的简单映射,在面向新任务、新环境时往往产生性能骤降。本报告着重介绍我们课题组在开放环境下的自适应视觉感知领域的相关工作,从更好的特征表达、更少的数据标注、更好的自适应性和可解释性的角度介绍我们在 CVPR 2022 会议上发表的若干工作,并对该方向加以总结与展望。

分享人介绍:张兆翔,博士,中国科学院自动化研究所研究员、博士生导师,教育部长江学者特聘教授,国家万人计划青年拔尖人才。主要研究方向包括脑启发的神经网络建模、视觉认知学习、面向开放环境的场景感知与理解,在本领域 TPAMI、IJCV、JMLR 等顶刊和 CVPR、ICCV、ICLR、NeuralPS 等顶会发表论文 100 余篇,授权专利 20 余项,承担了国家自然科学基金重点项目、国家自然科学基金企业联合重点项目、国家重点研发项目等一系列国家级科研项目,是 IEEE 高级会员,中国计算机学会 CCF 杰出会员、中国人工智能学会 CAAI 杰出会员、中国计算机学会 CCF 杰出演讲者,担任或曾担任 IEEE T-CSVT、Patten Recognition 等知名期刊编委,是 CVPR、ICCV、AAAI、IJCAI、ACM MM 等知名国际会议的领域主席(Area Chair)。

朱俊彦:数据高效的 GAN 训练



分享时间:北京时间 6 月 18 日 9:00-9:30 

分享摘要:GAN 等深度生成模型的强大和潜力在于它们能够合成无限逼真、多样和新颖的视觉内容。遗憾的是,这些大规模 GAN 的创建和部署需要高性能计算平台和大型标注数据集。常用的数据集如 ImageNet 和 LSUN 等需要人工标注数百万张图片。在本次演讲中,我将介绍两种数据高效的 GAN 训练技术可微数据增强以及集成现成的计算机视觉模型。总的来说,这两种方法使得我们只需一百张图片就能学习一个高质量的 GAN 模型。此外,我还将探讨现有 GAN 评估指标的问题以及潜在修复方法。

分享人介绍朱俊彦,CMU 计算机科学学院助理教授。在加入 CMU 之前,他曾任 Adobe Research 的研究科学家和 MIT CSAIL 的博士后研究员。他先后在清华大学和加州大学伯克利分校获得了本科和博士学位。他的研究兴趣在于计算机视觉计算机图形学和机器学习。他曾是 Facebook 奖学金、ACM SIGGRAPH 杰出博士论文奖以及加州大学伯克利分校 EECS David J. Sakrison 杰出博士研究纪念奖的获得者。他参与的作品曾获得过英伟达先锋研究奖和 SIGGRAPH 2019 实时直播秀的最佳表演奖和观众选择奖、入选了 Popular Science 颁发的 2019 年度百大最伟大创新。

在论文分享会结束后,机器之心还将在 18 日晚上 19:30 直播 CVPR 22 17th IEEE Computer Society Workshop on Biometrics 双赛道蚂蚁比赛总结,欢迎来看!
理论
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
商汤科技机构

作为人工智能软件公司,商汤科技以“坚持原创,让AI引领人类进步”为使命,“以人工智能实现物理世界和数字世界的连接,促进社会生产力可持续发展,并为人们带来更好的虚实结合生活体验”为愿景,旨在持续引领人工智能前沿研究,持续打造更具拓展性更普惠的人工智能软件平台,推动经济、社会和人类的发展,并持续吸引及培养顶尖人才,共同塑造未来。

http://www.sensetime.com
林达华人物

香港中文大学助理教授。研究兴趣:计算机视觉和机器学习。

朱俊彦人物

MIT电气工程与计算机科学系计算机科学与人工智能实验室博士后。研究重点:计算机视觉、计算机图形学、机器学习。CycleGAN的作者,曾获得ACM SIGGRAPH 2018最佳博士论文奖。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

深度生成模型技术

深度生成模型基本都是以某种方式寻找并表达(多变量)数据的概率分布。有基于无向图模型(马尔可夫模型)的联合概率分布模型,另外就是基于有向图模型(贝叶斯模型)的条件概率分布。前者的模型是构建隐含层(latent)和显示层(visible)的联合概率,然后去采样。基于有向图的则是寻找latent和visible之间的条件概率分布,也就是给定一个随机采样的隐含层,模型可以生成数据。 生成模型的训练是一个非监督过程,输入只需要无标签的数据。除了可以生成数据,还可以用于半监督的学习。比如,先利用大量无标签数据训练好模型,然后利用模型去提取数据特征(即从数据层到隐含层的编码过程),之后用数据特征结合标签去训练最终的网络模型。另一种方法是利用生成模型网络中的参数去初始化监督训练中的网络模型,当然,两个模型需要结构一致。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

小样本学习技术

人类非常擅长通过极少量的样本识别一个新物体,比如小孩子只需要书中的一些图片就可以认识什么是“斑马”,什么是“犀牛”。在人类的快速学习能力的启发下,研究人员希望机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习,这就是 Few-shot Learning 要解决的问题。

推荐文章
暂无评论
暂无评论~