撰文蒋思源

数学和编程能力,马维英说这是字节跳动AI Lab招人的首要准则

字节跳动 AI Lab 近日组织了 AI 开放日,他们展示了各种视觉和语言方面的炫酷应用,这些应用很多都已经嵌入了字节跳动的产品中,例如今日头条、抖音和西瓜视频等。此外,字节跳动 AI Lab 主任马维英还重点分享了实验室的招人准则,跃跃欲试的小伙伴们,你们准备好了么。

在开放日上,现场 Demo 展现了很多熟悉而又炫酷的应用。你知道怎样利用聚类算法和 CNN 从短视频从抽取最好看的小姐姐么?你知道怎样用单摄手机拍出柔顺的背景虚化图么?这些可能用耳熟能详的算法就能完成,只不过实验室会将它们做到极致并嵌入到 APP 中。

逛完 Demo 展示后,马维英介绍了很多实验室的具体信息,包括实验室的目标、发展情况和突出成果等。马维英表示 AI Lab 的目标是为今日头条和抖音等产品提供核心技术支持,并满足现在到未来 2-5 年的产品和业务发展需要。

有这么优秀的科学家和资源,你想不想来场面试?马维英随后就介绍了 AI 实验室的招人经验,所以你的数学和代码都准备好了么?

数学足够好是做 AI 研究的基础

从微软到今日头条,马维英的「看人」技能非常纯熟,他会比较特别地观察应聘者的各项素质。在开放日上,他也分享了 AI Lab 及个人面试的择人准则。马维英表示首先会考虑应聘者的数学基础是不是非常好,是不是能深入了解问题的本质。因此应聘者的数学功底要好,对数学模型有比较好的直觉和理解。也就是说应聘者不能只是会简简单单地应用,把模型或算法当作一个黑箱进行调参,而不了解具体过程。如果有比较好的数学基础,那么模型的理论过程、最优化方法、损失函数调优等都可以结合实际问题进行修正,从而获得更好的性能。

其次马维英会比较看重工程实践能力,所以 AI Lab 这边也会考虑应聘者的编程能力。马维英表示我们常常会有非常好的想法,但很可能没有实践能力,这是不够的。最后,马维英还会考察应聘者的态度,比如说团队合作、人际沟通和表达能力等,这是一些和软素质比较相关的东西。

而从个人角度来看,马维英说:「其实我这么多年招了这么多人,在面试中会非常重视眼神的交流。在面试过程中,我大概通过十多分钟就能判断面试者的思维是不是比较敏捷、回答过程中是不是比较坦诚等。因为有大量的经验,我通过对话可以看到面试者不太容易看到的一面。」

炫酷的算法应用

有数学还不够,你需要把它做成产品,所以你可以先看看 AI Lab 做出来的 Demo。其实它们很多都已经应用到实际产品中,例如 2018 年世界杯期间接入了今日头条直播间的视频分析、接入抖音的视频内容审核、嵌入西瓜视频的封面生成等,不过这里只重点介绍了视频理解与背景虚化两种应用。

曾经背景虚化只是单反的专利,通过大光圈获得像奶油般柔滑的背景。当然现在手机也可以借助双摄像头完成背景虚化,但如果只有单摄像头或单张图片,又如何借助算法实现背景虚化呢。字节跳动 AI 实验室展示了这样一种算法,它可以预测高清图像的「深度信息」,也就是从近到远区分前景与背景。有了这种深度信息,我们就能很自然地生成对应的背景虚化图像。

如下所示,直观而言模型首先会将高清图压缩为低清输入图,然后使用深度残差网络抽取到深度图,这里先压缩为低清图再做卷积运算可以大大降低计算力。然后我们可以根据深度图和低清输入图渲染低清背景虚化图,并在最后利用高清原图、低清输入图、深度图和低清背景虚化图构建高清背景虚化图。这里在训练过程中起到监督作用的是深度图,模型会尽可能正确预测整张图的深度信息,后面根据深度信息和原图生成背景虚化图就只是合成过程了。

其实预测深度图有点类似于图像分割任务,只不过这种逐像素的分类问题预测的是所有像素离镜头的距离。具体而言如上图绿色的 Depth Prediction 模块所示,模型不仅会使用全连接网络直接预测深度,同时还会使用额外的前景分割任务获得更准确的分割边界线。字节跳动 AI 实验室在现场展示了这一方法的实际效果,虽然不能说完美,但一般人是看不出问题的。

除了图像,视频处理也有非常有意思的应用。一般在上传视频到抖音或西瓜视频后,我们希望能有一张好看的封面,因为漂亮的事物总是能吸引别人点开视频。但是机器学习系统能帮我们挑选出最漂亮的封面吗?答案是可以的,字节跳动实验室展示的这个应用甚至可以从视频中选出最好看的视频帧,并裁剪为合适的大小。

下图展示了挑选封面的主要做法,当我们上传一段视频后,模型首先会对不同的视频帧做一个聚类处理。因为视频是连续的图像,聚类过程能将类似的视频帧都聚在一起,因此从不同的集群采样一些视频帧就能挑选出有代表性的图像。然后把这些图像馈送到深度卷积神经网络并度量每一张图像的质量,这样就能挑选出最「漂亮」的图像。最后只要进行适当地裁剪就行了,当然这样的裁剪也会尽可能保留主体。

在现场 Demo 展示中,应用可以快速推断出短视频中质量最高的图像,它会给出评分前三的视频帧。除此之外,字节跳动 AI 实验室还能利用深度卷积神经网络抽取关键视频片段,并总结为更精简的短视频。

现场 Demo 展示还有很多炫酷的应用与方法,例如在足球直播中,实验室构建的系统能追踪球员与足球,并估计相机所在的位置及拍摄的球场区域。这一系统在 2018 年世界杯期间接入了今日头条客户端的直播间,它还能检测精彩片段,并为 Xiaoming Bot 写作机器人提供图像素材。

其实 Demo 中的很多应用都需要部署到移动端,例如给人脸加各种特效的激萌或抖音等。为此,实验室展示了一种快速轻量级的人脸识别方法。他们会使用经量化的修正版 MobileNet V2,并采用知识蒸馏方法从预训练的大模型中学习更优秀的精炼模型。因此在实际应用中能以毫秒级的延迟完成人脸识别任务,而对人脸再加特效也就非常迅速了。

经过这么多的展示,总的而言字节跳动有非常多优秀的产品,而这些产品正需要新兴的机器学习乃至深度学习技术提供更多「炫酷」的功能。

产业今日头条
1
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。 公司独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式。

https://bytedance.com/en
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

深度残差网络技术

残差网络是为了解决深度神经网络(DNN)隐藏层过多时的网络退化问题而提出。退化(degradation)问题是指:当网络隐藏层变多时,网络的准确度达到饱和然后急剧退化,而且这个退化不是由于过拟合引起的。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

推荐文章
暂无评论
暂无评论~