2022/07/18 15:45

Creator 面对面 | 面向统一的 AI 模型架构和学习方法

随着 AI 的兴起，不同领域的相关研究热火朝天，各种各样的 AI 模型框架和学习方法扑面而来，各不相同。那么是否能有一种统一的模型架构和学习方法来解决不同领域的不同问题呢？让我们来听听怎么看。

在今年 1 月，微软亚洲研究院（MSRA）视觉计算组的主任研究员胡瀚在做客机器之心「2021-2022 年度 AI 技术趋势洞察」的「模型专场」直播间时，为我们带来了主题为「面向统一的 AI 模型架构和学习方法」的学习分享。

胡瀚博士首先为大家介绍了基于通用架构的通用学习机器---人脑。

左图中比较褶皱的地方叫新皮质，这个部分占了整个人脑的 70% 左右，负责了大部分的人类的智能，包括视觉、触觉、听觉等等。尽管有很多不同的功能区，但是它的结构非常统一。如果我们将这些褶皱展开的话，它的形状就像一个餐巾布，长宽大概 40 到 50 厘米，厚2到3毫米。

最右边的图是通过三种染色方法得到的一个剖面图，它是一个很明显的六层结构。这样一个结构表明先前看起来很不一样的这些能力，它所用的结构几乎是一模一样的。反过来说，我们几乎所有的智能，都可以用这样的一种通用的结构来实现，即新皮质，而这其实也是人之所以能够成为万物之灵长的一个关键所在。

随后胡瀚博士分享了一个关于大脑新皮质的可塑性的一个实验。

该实验发表在 2000 年的《Nature》上，科学家在在老鼠出生的时候，把听觉的皮层的输入掐断，然后把视觉的输入粘到听觉皮层里面，然后发现一段时间以后，这个听觉皮层也能够对视觉产生响应。这个例子就表明我们的神经的皮质其实是很通用的。

前面提到的是大脑的结构，是先天的，那么人脑又是如何进行后天学习的呢？胡瀚博士介绍了 LeCun 的蛋糕类比、婴儿在观察中的学习（自监督）、统一学习方法等等。

人脑的学习目前普遍认为其实是通过一种预测的方式。

具体人脑是如何实现的呢？目前还尚不清楚，但脑科学家们有一些推论，认为丘脑可能起到了关键作用。

人脑它是一个基于通用模型，通用学习方法的机器。我们相信未来的 AI 它也必然是一个统一的模型以及统一的学习方法。这里，胡瀚博士分别对「迈向统一的 AI 模型架构」和「迈向统一的 AI 学习方法」做了分享。

迈向统一的 AI 模型架构

胡瀚博士首先介绍了卷积用于序列自然语言处理的方法和视觉方法。

其中 Transformer 是目前处于一个统治的地位，原因是其有强大的通用性。

胡瀚博士着重介绍了由他们团队研发的 Swin Transformer，介绍了 Swin Transformer 的核心想法还有 Swin 的关键技术及创新：移位窗口方法等等。

基于下图中这样的一个设计范式，可以用来处理 NLP 和 CV 以及广泛的一些问题。

迈向统一的 AI 学习方法

NLP 领域中的学习方法，如 BERT -- 掩码信号预测。

CV 领域以往是基于有监督来做预训练，但从 MoCo 首次以自监督的方式超越有监督的方式开始，视觉自监督方法引起了广泛的关注。

NLP 领域中的学习方法在 CV 领域被验证有效。

统一网络架构和统一学习方法铸造视觉大模型Swin Transformer v2。

分享的最后，胡博士讲道：我们应该期待去拥抱 AI 的统一网络架构以及学习方法。