Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蛋酱原创

「十亿像素」引领视觉智能技术变革,2022 GigaVision挑战赛圆满落幕

2012 年,深度学习在 ImageNet 图像挑战赛中取得了巨大的突破,被广泛认为是第三次人工智能革命的标志性事件。以此为开端,十多年间,从人脸识别、跟踪到动作识别,围绕各类视觉智能任务的技术都取得了显著的进展,人工智能理论与技术的大变革时代终于到来。

2017 年,国务院发布《新一代人工智能发展规划》,描绘了中国人工智能未来发展的宏伟蓝图,确立了「三步走」目标:到 2020 年人工智能总体技术和应用与世界先进水平同步;到 2025 年人工智能基础理论实现重大突破、技术与应用部分达到世界领先水平;到 2030 年人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心。

在「三步走」目标的指导下,中国在全球人工智能领域取得的成就有目共睹。无论是在论文、学者还是专利数量等维度上,中国人工智能发展水平均已跻身世界第一梯队。但下一步,在向着「世界领先水平」目标前进的过程中,我们仍然面临着若干关键挑战,其中就包括前沿技术的创新能力和领军人才的培养问题。

在这样的背景下,清华大学、中国人工智能学会联合举办的 2022 GigaVision 挑战赛受到了广泛关注。GigaVision 挑战赛聚焦十亿像素级视觉智能研究,旨在牵引新一代人工智能技术发展的若干关键问题,促进更准确、更高效、更鲁棒的新理论与新技术的发展,引领人工智能、视觉智能领域的变革。

大赛已于近日正式落下帷幕,在精彩纷呈的比赛过程中,我们也见证了一系列前沿技术成果的诞生。

上千支队伍参赛,聚焦十亿像素级挑战

大赛基于GigaVision数据平台开源的两个十亿像素图像视频数据平台「PANDA」和「GigaMVS」,开展了GigaDetection、GigaMOT、GigaTrajectory、GigaReconstruction、GigaRendering、GigaCrowd六大赛道,旨在推动视觉智能原创算法创新。

自开幕以来,大赛共吸引了全球超过 1000 支队伍参加。这些队伍分别来自牛津大学、慕尼黑工大、香港科大清华大学、中国科学院大学、复旦大学北京大学等海内外顶级高校,以及字节跳动华为技术有限公司、阿里、百度、浪潮集团有限公司、TPlink、三星美国研究院、新加坡科技研究局等国际一流人工智能企业。

本次大赛分享交流活动中,多个 TOP 团队的作品让组委会技术专家留下了深刻印象:

例如,目标检测赛道提供了十亿像素图像的行人数据集,核心任务是评估模型在十亿像素图像中多目标检测任务的准确性。参赛团队全面分析了宽视场、高分辨视觉数据中大场景、多对象、复杂关系等新特点所带来的新问题,围绕着场景全局稀疏、局部稠密,对象尺度多变、姿态复杂,数据通量大等挑战,提出了一系列目标检测新算法与新模型,相较现有前沿算法,实现了精度与效率的显著提升。

而 3D 赛道的参赛作品融合了基于人工智能的神经辐射场表征、可微渲染优化方法和基于多视图几何的立体匹配等经典方法,在算法设计和工程化实现上都颇具亮点,对大场景高精度三维重建与渲染任务具有较大的启发性,展示出了巨大的落地应用潜力。

历经五个月的激烈角逐,最终,来自北京大学、上海交通大学、东南大学、南方医科大学、华为等高校和单位的参赛队伍获得了大赛各赛道的冠军,收获了丰厚的奖励。

视觉智能,还能这样「卷」?

决定一场赛事高度的关键因素,在于赛题任务和赛题数据。而这场挑战赛背后的 GigaVision 数据平台,正是一系列视觉智能前沿问题的「发源地」。

GigaVision 数据平台目前包括 PANDA 和 GigaMVS 两个子项目,其中 PANDA 是世界上首个十亿像素级、以人类为中心的视频数据集,GigaMVS 是世界上首个十亿像素级超大规模场景三维重建基准

相比于当前各种百万像素级的视觉任务,GigaVision 挑战赛填补了十亿像素图像 / 视频层面的空白,为视觉智能领域内的研究者和从业者带来了新鲜感十足的挑战。

在 GigaVision 挑战赛中,每一张图片、视频的每一帧都是十亿像素级别。比如 GigaMOT 赛道,参赛者需要评估 MOT 模型在十亿像素视频中对多个目标跟踪任务的准确性,既要解决单目标跟踪任务的互相遮挡、运动模糊、拥挤场景、尺度变化等难点,又要处理目标轨迹的起始与终止、相似目标间的相互干扰等问题。特别是该赛道所使用的 PANDA-Video 大场景数据集,其可视范围大、拥挤行人的复杂场景等特点也为传统数据集上的 MOT 算法带来了新的挑战。

图片

基于十亿像素视频的多目标跟踪示例。

又比如在 GigaRendering 赛道中,参赛者需要在给定的不同场景经过校准的十亿像素图像中,面对稀疏视角下的高分辨率、宽视场、细节丰富的难点,渲染生成新的 RGB 视图并尽可能提升其准确性。十亿像素级别的图像渲染任务,对神经辐射场的表达、规模和效率提出了更高的挑战。

图片

十亿像素图像渲染新视图示例。

此外,偏好原始创新的测评方式亦是 GigaVision 挑战赛的一大亮点。传统的人工智能挑战赛任务普适性强、办赛周期短,大部分参赛队伍倾向利用成熟的理论框架和工程套路,实现系统集成和参数调优,反复刷榜。完全以分数导向的测评方式,阻碍了技术的原始创新。相比之下,GigaVision 挑战赛形成了固定的举办周期,注重前沿性、原创性,更能鼓励参赛队伍进行原始创新。

可以看到,GigaVision 挑战赛看似仍在比拼视觉智能领域的几大经典研究问题,但面向「十亿像素」级图像视频数据,赛题的前沿性、挑战性、创新性和开拓性大幅提升,与经典问题截然不同。以往将整个图像或视频放进网络中直接处理的传统方法不再奏效,仅仅使用单个模型或几个模型也很难完成这种级别的任务。因此,参赛团队会更加专注于「卷」模型架构的设计,致力于探索模型能力的上限,开展更多理论层面的创新尝试。

经过多轮比拼、线上评测、结果复现和视频答辩,本届大赛获得了多目标检测多目标跟踪、多目标轨迹预测、3D 重建、3D 渲染、密集人群三维重建等方面的多个创新性解决方案,这些作品均具有很高的准确性和领先性,为十亿像素计算机视觉的发展带来了启发。

几年来,GigaVision 数据平台以赛为媒,已经与 CVPR、ICCV、ECCV、ACM MM 等国际顶会联合举办了多届 Workshops 和 Challenges。系列赛事的举办水平不断提升,参赛规模不断增长,关注度和影响力越来越高。

对于 GigaVision 数据平台来说,这一系列赛事构建了前沿开放的学术交流社区,面向国内乃至全球发现和储备了一批优秀的视觉智能算法研究人才,并从中挖掘出了极具价值的科研合作切入点。

对于视觉智能领域和整个社会来说,其更重要的价值在于「以赛引才、以赛育人」,不仅能够促进我国智能成像技术和人工智能产业的快速发展,同时将推动人工智能在科研领域解决真实世界问题等方面提供基础性支撑。以「十亿像素」数据集为支撑,GigaVision 挑战赛或将开启视觉智能领域的下一次重大突破。

立足「原创」,追求极限

在十亿像素级别的视觉智能前沿探索中,GigaVision 无疑提供了一个很好的平台载体。

当然,技术高峰的攀登是没有止境的。GigaVision 挑战赛主办方将不忘初心,瞄准科技前言、面向产业需求,前瞻性布局设置更多高水准、高价值的赛题,持续提升十亿像素级数据平台的数据规模和场景维度,为视觉智能领域科研人员提供一个全新的学习、展示、交流和竞技平台,助力视觉智能前沿科技发展和产业变革。

2023年新赛季活动即将拉开序幕,其中部分赛道与第三届国际人工智能会议(CICAI 2023)联合举办,以丰厚奖金征集创新算法方案,欢迎访问官网查看最新信息。挑战升级、奖励升级,欢迎各位 AI 科技爱好者关注大赛官网参与挑战!

图片

GigaVison官网

图片

CICAI官网

访问 https://cicai.caai.cn/ 

同时,为了促进相关领域科研和学术交流,PANDA 和 GigaMVS 数据集持续开放,欢迎 CV 爱好者通过下方链接下载数据。

图片

数据集下载
联系邮箱:challenge@gigavision.cn
入门2022 GigaVision挑战赛视觉智能
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

港科大机构

香港科技大学(The Hong Kong University of Science and Technology),位于中国香港,简称港科大(HKUST),为环太平洋大学联盟、全球大学校长论坛、东亚研究型大学协会、亚洲大学联盟、中国大学校长联谊会重要成员,并获AACSB和EQUIS双重认证,是一所亚洲顶尖、国际知名的研究型大学。该校以科技和商业管理为主、人文及社会科学并重,尤以商科和工科见长。截至2019年9月,学校设有理学院、工学院、工商管理学院、人文社会科学学院等4个学院及跨学科课程事务处;校园占地超过900亩,有教员697人,各类学生16054人,其中本科生10148人,研究生5906人。

https://hkust.edu.hk/
轨迹预测技术

轨迹预测探索不同交通代理的运动模式,准确预测未来轨迹,帮助自主车辆做出合理的导航决策。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

三维重建技术

三维重建是指利用二维投影或影像恢复物体三维信息(形状等)的数学过程和计算机技术。

多目标跟踪技术

多目标跟踪(Multiple Object Tracking or Multiple Target Tracking, MOT or MTT)主要任务是在给定视频中同时对多个目标进行定位、维持他们的ID、生成他们各自的轨迹。

东南大学机构
北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~