机器之心编辑部报道

「每章都能当做一篇博士论文」:闫令琪获SIGGRAPH 2019最佳博士论文奖

昨天,顶级计算图形学机构 ACM SIGGRAPH 颁发了 2019 年最佳博士论文奖。获奖者闫令琪博士毕业于加州大学伯克利分校(UC Berkeley),目前已是加州大学圣巴巴拉分校(UCSB)的一名助理教授。他的博士论文颁奖词是这么说的:「他的论文每章都可以自成一篇博士论文。」

从高考状元到计算机科学「学神」,闫令琪博士的学术成就与贡献还不止于此。英伟达最新的 RTX 系列显卡使用的「光线追踪技术」就是源自于闫令琪等人的研究。

从高考状元到 CS 学神

闫令琪于 2018 年 9 月起任加州大学圣巴巴拉分校助理教授,在此之前他在 2018 年获得了加州大学伯克利分校的博士学位,导师为 Ravi Ramamoorthi。在 2013 年,他获得了清华大学计算机系学士学位。

在伯克利毕业之前,人们对闫令琪的印象或许更多的是「2009 年安徽省阜阳高考状元」,他的高考分数为 695 分,名列全省第二。他曾在总结自己高中学习方法时表示:目标性、计划性、劳逸结合是几个重点。

「首先要清楚自己的实力。」要想有一个理想的分数,就不能无谓失分,在平时练习时,不要放过任何一个小错误。例如数学选择题,一旦做错了一道题,就要逼迫自己去多做几题「长记性」。

时间分配上,闫令琪认为在校时间要合理利用,不能一味注重数理化,而忽视了语文和英语;一天的劳累学习后,回到家里可以适当放松,劳逸结合才能有好的学习效果。

闫令琪特别提到不要做无用功。例如数学大题中的三角函数、立体几何等题没有太多花样,对于这类题,只要知道思路,无需浪费太多时间。对于数学试卷的最后一题,要会在做题的同时总结方法;而对于基础题注重运算能力,切勿粗心而丢分。

据说,闫令琪在高中时代是一个特别会玩的学生。紧张的高考前夕,他每天玩游戏的时间都在 1 个小时以上,而他当时的目标就是考取清华大学计算机系。

进入 UC Berkeley 之后,闫令琪的主要研究方向是基于物理的真实感图形渲染及其相关的数学和物理理论,具体包括基于微观细节的材质观测和建模、离线和实时光线追踪、信号的采样和重建、高效的光线传播和散射等等。作为一名优秀的研究者,他开创并启发了一系列下一代计算机图形学的研究方向,如高度细致的渲染和实时光线追踪

闫令琪曾于 2018 年因开创性的研究被授予 C.V. Ramamoorthy 杰出科研奖 —— 这是历史上首位获奖的华人。此外,他的科研成果还被直接应用于电影和游戏业,曾帮助影片《猩球崛起 3:终极之战》于 2018 年获得奥斯卡最佳视觉效果奖提名。

最佳博士论文奖

有着开创新领域的贡献,闫令琪获得最佳博士论文奖着实让人感到实至名归。ACM SIGGRAPH 对于闫令琪的论文有很高的评价:

闫令琪的论文以统一、综合的视角介绍了计算机图形渲染视觉外观建模。每个章节都能独立成为一篇博士论文的主题。该研究生成的惊艳视觉图像,成为了近期 SIGGRAPH 大会上的亮点,也为产业带来了极大的实用性影响。闫令琪发表过 7 篇有关图形学的 SIGGRAPH 和 ACM Transactions 一作论文,这是前所未有的。

该论文为三大领域提供了突破性贡献:镜面微观结构或者微光(glints)建模、皮毛反射(fur reflectance)和快速蒙特卡洛渲染。微光相关章节内容是基于 2014、2016 和 2018 年的论文,介绍了如何解析评估镜面反射,如何完成光传递的全波动光学模拟,这些思想如今已经被用于商业化,例如 AutoDesk Fusion360 和 Rise of the Tomb Raider 2016。

在论文第二章中,闫令琪开发了一个动物皮毛模型,并用测量与模拟方法进行了测试(简化、泛化了该模型),作者也展示了如何用它完成全局光照计算。该技术被 Weta Digital 用于电影「猩球崛起 3:终极之战」。

第三章节内容有关全局光照,展示了对蒙特卡洛渲染去噪方法的重大突破,也介绍了其他基于滤波的去噪方法。

这些以及其他相关的研究启发了当前蒙特卡洛采样方法和去噪管道,包括英伟达最新的软件(Optix5,2017)和硬件(RTX GPU,2018),使得实时光线追踪首次成为可能。

英伟达 RTX 系列芯片可以实现前所未有的视觉体验,我们还记得黄仁勋在 GTC 大会上的介绍:它可以在游戏中呈现不同材质的反光,以及反光的反光,实现电影级的效果。

闫令琪在解决这一领域的开放问题上做了许多工作,他从全新的方向解决计算机图形的问题,超越了传统认为不可能的范围。在这个过程中,他打开了新的子领域,变革了我们当前对渲染、视觉外观、生成全新图像的的认知。

闫令琪已经发表了十几篇有关图形学的 SIGGRAPH 和 Transactions 论文。SIGGRAPH 社区以 2019 ACM SIGGRAPH 博士论文奖表彰他取得的卓越成就,也期待未来他能作出更多惊艳的成果。

开天辟地的研究

让我们看看闫令琪的博士论文《Physically-based Modeling and Rendering of Complex Visual Appearance》究竟讲了什么:

论文链接:https://sites.cs.ucsb.edu/~lingqi/publications/thesis_final.pdf

在这篇论文中,我们主要研究物体渲染,这种渲染能够根据 3D 模型和场景合成图像。当前最先进的渲染技术仍要面临两个基本的挑战:真实感和速度。渲染结果能看出来是人工生成的,过于完美,反而失真;而且渲染过程太慢,无论是对于离线还是交互式应用程序来说。

此外,更佳的真实感和更快的速度本质上就是矛盾的,因为当渲染试图产生保真度更高的详细结果时,计算复杂度会大量增加。为了兼顾二者,本文引入了细节渲染和外观建模的概念,准确展示和复现从微米级到整体外观的丰富视觉世界,并将稀疏光线采样与快速高维滤波相结合,从而实现实时性。

为了使渲染更加真实,我们首先强调的是细节。但是,渲染具有大量细节的复杂表面绝非易事。传统上,表面的微观结构是通过平滑的正态分布近似得到的,但这样容易忽略细节,比如在现实世界中容易观察到的微光效果。

虽然建模实际的表面微观结构是可能做到的,但使用蒙特卡洛点采样方法会导致成本高昂的问题:能量会集中在微小亮点上,而这种微小亮点只占据了像素的极小部分。

相反,我们使用完全不同的确定性方法来计算蒙特卡洛最终会收敛到的准确解。我们的方法考虑了通过单个像素看到的表面上高度复杂的法线分布。假设表面分别是由 2D 平面三角形或 4D 高斯元素组成,我们展示了用封闭形式解有效评估这一点的不同方法。

我们还展示了如何扩展该方法来准确处理波动光学。我们的研究结果显示,非平滑的塑料、刷过或刮过的金属、金属漆和海浪等材料会产生复杂的、随时间变化的微光。

如上所述,尽管渲染细节带来了许多挑战,但我们假设自己知道表面是如何反射光的。然而,现实世界中有大量的自然材料,我们并不知道它们与光交互的准确方式。为了真实地渲染这些材料,我们需要从微观结构中导出准确的外观 / 反射模型来定义它们的光学行为。

我们在第四章中通过引入动物皮毛的反射模型证实了这一点。渲染逼真的动物皮毛是计算机图形学领域的一道长期难题。人们在建模人类毛发的几何复杂性方面已经取得了相当大的成就,但毛发纤维的外观 / 反射却还无法很好地理解。

基于解剖学文献和测量,我们开发了一个单根毛发纤维反射的双筒模型,其中外筒表示对被多个角质层覆盖的皮层的生物观察,内层表示散射内部结构(被称为延髓),人类毛发纤维中通常不存在这个。

我们通过对真实毛发纤维的测量来验证物理模型,并引入了计算机图形学中的第一个数据库,用于 9 个皮毛样本的反射剖面。为了有效进行渲染,我们开发了一种方法来预先计算 2D 延髓散射轮廓,并且用因子化波瓣(factored lobes)来近似反射模型。

我们还开发了许多优化方法,在不损失准确率的情况下提升效率和通用性。另外,我们还提出了首个全局光照模型,基于用于表面散射的偶极扩散(dipole diffusion),通过将复杂的光和毛发交互建模为次表面散射,并且用简单的神经网络将毛发纤维的特性转换为散射参数,来近似单个毛发纤维之间的光反弹。

然而,如果没有这些细节来改善渲染的真实感,使用当前最先进的蒙特卡洛射线追踪的渲染方法性能依旧低下。物理上正确、无噪声的图像每个像素可能需要数百或数千个光线样本,并且需要很长时间来计算。最近的方法利用了稀疏采样和滤波。滤波方法虽然很快(轴对齐),但需要更多输入样本,或者说输入样本过少速度又会非常慢(剪切)。

在第 5 章 [143] 中,我们提出了一种在 GPU 上进行快速剪切滤波的新方法。我们的算法将 4D 剪切滤波器分解为 4 个 1D 滤波器。我们推导出该方法的复杂边界,结果显示每像素复杂度从 减少到 O(nl),其中 n 是线性滤波器宽度(滤波器大小为 O (n^2)),l 是(通常非常小)每个像素的光或透镜的每个维度的样本数量(spp 是 l^2)。因此,我们大大减少了剪切滤波开销。论文中,我们展示了如何以交互式的速度渲染景深、柔和阴影和漫射全局光照。

论文模型生成场景的静止帧。

期待闫令琪博士未来的更多新研究。

值得一提的是,去年的 ACM SIGGRAPH 最佳博士论文奖也是由来自加州大学伯克利分校的华人朱俊彦获得,参见:别人的博士生涯!CycleGAN 作者朱俊彦获 SIGGRAPH 杰出博士论文奖

参考链接:

https://www.siggraph.org/2019-outstanding-doctoral-dissertation-award-lingqi-yan/

https://sites.cs.ucsb.edu/~lingqi/

理论闫令琪ACMSIGGRAPH计算机图形学
3
相关数据
朱俊彦人物

MIT电气工程与计算机科学系计算机科学与人工智能实验室博士后。研究重点:计算机视觉、计算机图形学、机器学习。CycleGAN的作者,曾获得ACM SIGGRAPH 2018最佳博士论文奖。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

光线追踪技术

在计算机图形学中,光线跟踪是一种渲染技术,用于通过将光的路径跟踪为图像平面中的像素并模拟虚拟对象对光线的接收效果来生成图像。 该技术能够产生非常高的视觉真实感,通常高于典型扫描线渲染方法,但计算成本更高。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

CycleGAN技术

GAN的一个变种

加州大学伯克利分校机构

加利福尼亚大学伯克利分校,简称加州大学伯克利分校,又常被译为加利福尼亚大学伯克莱分校,位于美国加利福尼亚州旧金山湾区伯克利市,是一所世界著名的公立研究型大学。其许多科系位于全球大学排行前十名,是世界上最负盛名的大学之一,常被誉为美国乃至世界最顶尖的公立大学。

https://www.berkeley.edu/
360机构

奇虎360科技有限公司,是中国领先的互联网和手机安全产品及服务供应商。据第三方统计,按照用户数量计算,360是中国领先的互联网安全公司,用户6亿,市场渗透率96.6%;中国领先的移动互联网安全公司,用户数近8亿,市场渗透率近70%;中国领先的浏览器公司之一,活跃用户达到4亿,渗透率超过70%。 360致力于通过提供高品质的免费安全服务,为中国互联网用户解决上网时遇到的各种安全问题。面对互联网时代木马、病毒、流氓软件、钓鱼欺诈网页等多元化的安全威胁,360以互联网的思路解决网络安全问题。360是免费安全的首倡者,认为互联网安全像搜索、电子邮箱、即时通讯一样,是互联网的基础服务,应该免费。为此,360安全卫士、360杀毒等系列安全产品免费提供给中国数亿互联网用户。同时,360开发了全球规模和技术均领先的云安全体系,能够快速识别并清除新型木马病毒以及钓鱼、挂马恶意网页,全方位保护用户的上网安全。

https://www.360.cn/
暂无评论
暂无评论~