机器之心编辑部报道

15大领域、127个任务,这里有最全的机器学习SOTA模型

机器之心又一产品「SOTA模型」今天上线啦!机器学习 SOTA 研究一网打尽。

想象一下,你是一位从事机器学习的研究者,需要持续了解最前沿研究进展;或者你希望将最前沿的机器学习研究应用于自己从事的领域。为此,当你在浩瀚无边的论文海洋中畅游时,你最需要的找到的是 SOTA 论文。

SOTA,全称「state-of-the-art」,用于描述机器学习中取得某个任务上当前最优效果的模型。例如在图像分类任务上,某个模型在常用的数据集(如 ImageNet)上取得了当前最优的性能表现,我们就可以说这个模型达到了 SOTA。

那么,怎样才能高效找到 SOTA 论文呢?遗憾的是,经过多年的发展,现在依然没有一个平台能够完整地汇总、整理、归档所有 SOTA 论文。在全世界最著名的论文预印发布平台 arXiv 上,搜索 SOTA 的结果也非常杂乱无章。此外,即使有类似于 GLEU leaderboard 之类的网站可以看到一些 SOTA 模型,但也只是机器学习庞杂体系下的一小部分。

在 arXiv 上搜索 state-of-the-art 时,返回的结果会很多,但仍然不够系统。想要知道达到了 SOTA 的论文是关于什么任务、使用了什么数据,需要点进去一一查看。

机器之心作为专业的人工智能信息平台,有着多年的学术资源积累。经过对大量数据的分类与汇总,机器之心再次上线新产品:SOTA模型。你可以根据自己的需要寻找机器学习对应领域和任务下的 SOTA 论文,平台会提供论文、模型、数据集和 benchmark 的相关信息。

访问地址:www.jiqizhixin.com/sota 

前沿研究触手可及

在「SOTA模型」首页,你可以直接搜索技术任务,系统会立刻返回任务定义、取得 SOTA 的模型名称、研究中最常用的模型和最热门的数据集。

如果你继续向下浏览网页,就可以看到此技术任务下所有使用过的数据集和模型,并且可以按照数据或模型的类型进行筛选。

想知道历史 SOTA?完整榜单送给你

当然,这还远远不够。SOTA 是随着时间变化的,如果我们想要看到历史上取得过 SOTA 的模型和论文呢?

再往下拉页面,就可以看到历史上在该任务上取得过 SOTA 的榜单了。

你也可以点击「数据集」、「模型」或「Metrics」进行排序。

如果你对某个研究感兴趣,可以展开详情,查看研究的出处论文。

某个 SOTA 研究的详细信息。可以点击「查看详情」阅读论文

这样一来,「SOTA模型」如同一个强大的论文搜索引擎,为你直接寻找机器学习中各种各样的 SOTA 研究。它不仅仅会告诉你是什么研究,还会提供研究使用的数据集、模型、取得的 SOTA 指标数值,以及什么时候取得的 SOTA 结果。

全面系统的知识点归档

当然,你可能是一位刚刚入门机器学习的初学者,对于机器学习中的各项任务不太清楚。这时候,「SOTA模型」会是你很好的入门学习伙伴。如下图所示,「SOTA模型」首页会提供各个机器学习子领域的入口。

以「计算机视觉」为例,你可以点击这一子领域,「SOTA模型」会提供这一领域的定义,并提供这一领域所涉及的基础概念和技术方法。你可以根据需要选择查看。

而在这一页的下方,「SOTA模型」提供了这一领域所有涉及到的任务。如边缘检测、人脸识别等。

这时候,你就可以知道是否有自己需要了解的机器学习任务了。你可以点开其中的任务查看。对于一些非常火热或成熟的研究领域,「SOTA模型」还提供了相关的活动、会议和期刊。

人脸识别」任务下,提供了相关会议和期刊的信息

海量知识库加持的模型库

能够提供如此丰富的 SOTA 论文信息,得益于机器之心背后强大的信息平台支持。在前几个月,机器之心已上线了机器之心Pro,一个为企业、学者等各方提供专业人工智能信息服务的平台。在 Pro 平台上汇聚了海量机器学习相关信息,为「SOTA模型」提供数据加持,使得「SOTA模型」能够更进一步,提供最为前沿的研究领域 SOTA 资讯和系统的机器学习知识。

目前「SOTA模型」中已涵盖 15 个机器学习领域大类,共计 127 个机器学习任务,共收录 SOTA 论文 1174 篇,归档模型 2031 个,有记录的数据集总数为 561 个。我们也将持续更新数据。

能够囊括如此之多的信息,离不开机器之心在机器学习领域的投入研究。为了提供 SOTA 论文的数据,「SOTA模型」投入了多数据源的自动化爬虫和数据清理工具,使用了机器学习和自动化工具,对特定类型的数据进行结构化处理、数据校验和去重工作。在论文数据方面,使用了论文文本数据分析和信息提取相关技术。

论文爆炸时代,更需要为读者提供精准服务

每年,机器学习领域都会有大量的投稿论文,例如 2019 年的 CVPR 大会投稿数量就超过了 5000 篇,是 2018 年投稿数的两倍。泥沙俱下的研究,增加了业内人士筛选优秀论文的成本。「SOTA 模型」产品的上线,标志着机器之心信息服务进入了新的阶段。

接下来,「SOTA 模型」将会进一步完善内容,增加更多、更为清晰和完善的数据。如果在现有的版本中没能找到自己想要的数据,稍安勿躁,我们近期也将会添加近一倍的数据。假期归来,想要了解某个技术领域或者做项目需要查找资源时,你就能用到。

同时我们也会提供更多的分析项目,并努力和机器之心现有的知识库、新闻库等模块关联。产品也会根据用户的需求提供更为精准完善的数据分类和推荐、数据对比和可视化功能。

如果您在使用「SOTA 模型」过程中,有任何反馈,可以添加微信 lyz147147 沟通交流(请备注「SOTA模型反馈」)。

产业SOTA论文机器之心
1
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

数据清理技术

数据清理(data cleansing)指删除、更正数据库中错误、不完整、格式有误或多余的数据。数据清理不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清理软件能够自动检测数据文件,更正错误数据,并用全企业一致的格式整合数据。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

推荐文章
暂无评论
暂无评论~