Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI界的State of the Art都在这里了

近日,来自 MIT 和 UNAM 的四名学生构建了一个收录了最优算法的网站,他们按领域、任务和数据集采集了最先进水平(SOTA)的论文,并为不同的任务提供了不同的性能度量标准。如果我们需要处理特定数据集或任务,这能大大减少搜索论文的时间,同时还能快速了解当前最优的解决方案。

项目地址:https://www.stateoftheart.ai/

正如这些学生所言:「我们希望将所有资源都高效地分配到如今迅猛发展的 AI 和 ML 领域。」因此这个项目可以更高效地利用手中的资源,包括将时间、精力和计算资源都投入到真正的当前最优方法和结果上。

State Of The Art

尽管目前已经有很多诸如 arxiv-sanity、GroundAI、Deep Learning Monitor、reddit、Medium 等等能帮助我们紧跟 AI 和 ML 领域最新发展的网站。作者认为目前我们尚未拥有易于查询的项目来检索最先进的、可量化的任务结果。遵循这个想法,作者的目标是建立这个工具,不仅对研究人员有用,对任何想要咨询或有助于推动该领域的人都有用。

基于这样的目标,作者选取了 State Of The Art 作为衡量标准。很多读者都很熟悉当前最优结果(SOTA),现在的新研究很多都尝试给出更好的 SOTA 结果。而大部分新的最优结果主要关注修正部分结构或给出一些技巧,我们很难判断实际上这样的修正到底重不重要。为此,作者认为一个能真正包含 SOTA 结果的项目是非常有价值的,因此也就有了 stateoftheart.ai。

数据来源与度量

数据的主要来源是可以上传其领域相关结果的机器学习社区。社区的开发者在阅读(大量)文章后,会知道哪些论文是真正重要的、哪些论文的 SOTA 结果是可以复现的。此外,爬取网页和几个现有数据集和网站的数据同样可以为项目提供数据。最后,数据的另一部分来自电子前沿基金会的《Measuring the Progress of AI Research》报告。

报告地址:https://www.eff.org/ai/metrics

当然,衡量 AI 领域进展的许多方面既不容易量化,也不能以表格形式展示。此外,任务的分类在某种程度上必然是有任意性的和不完整的。但是,在许多情况下,这样的工具非常有用,并且始终可作为非全面的初始参考。该项目已经覆盖了计算机视觉、AI 游戏、自然语言处理、网络图和知识库、程序归纳和程序合成、音频处理,以及时间序列处理等领域。

项目示例

开放平台并使其简单无缝,每个人都可以做出贡献是至关重要的。任何人只要注册后就可以使用「Upload Result」按钮上传新任务、指标或结果。目前,该网站支持通过论文的 DOI / URL 来上传结果。这里主要展示了图像分类机器翻译的 SOTA 结果,项目会提供对应原论文与具体数据集上的结果。此外,作者还将根据用户反馈调整平台以适应更多用例场景。

目前该网站不支持搜索引擎,但可以通过多级分类按钮进行检索。检索共分为三个级别,领域、任务和数据集。只要依次选中想要的检索关键词,就可以在下方的表格中查到定量的 state of the art 数值结果。如下图所示,依次选中「计算机视觉」、「图像分类」和「ImageNet」后,就能看到当前最佳的 ImageNet 分类器的相关信息。


从表格中分别能查询到相关论文、作者、算法、论文接收会议和性能指标,以及论文的链接。

 从这里的数据来看,作者收集了多种分类指标,包括准确率、误差率、top-1 准确率和 top-5 准确率,并分离地进行排序。

按照 top-1 准确率和 top-5 准确率指标,最佳的 ImageNet 分类器应该是 2018 年的《Learning Transferable Architectures for Scalable Image Recognition》这篇论文中提出的 NASNET-A(6) 架构,其 top-1 准确率为 82.7%,top-5 准确率为 96.2%。

 此外,算法描述也能提供一个简要的理解。例如在机器翻译中的 NIST05 (Chinese-English) 数据集上,当前最优的论文可以视为结合了 Transformer 与 CSGAN。算法简述与其所投的的大会能让我们在最短的时间内对该论文有一个直观了解:

关于该项目的数据更新程度,我们可以根据近期比较受关注的 BERT 模型收录情况感受一下。在自然语言处理领域,已经可以在很多任务中找到 BERT 的身影,包括分类、常识推理、实体识别、语法、电影评论等。

当然,这里收录的 SOTA 结果也不全包含最新的。比如,依次点击「Game Playing」、「Abstract-Strategy」、「Go」之后,你将看到如下结果:

表中显示 AlphaGo Zero 是最新的 SOTA 围棋 AI,但实际上我们都知道,应该是近期上了 Science 封面的 AlphaZero

工程SOTA当前最佳指标开源MIT
71
相关数据
基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

阿尔法围棋技术

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。