第四范式AutoDL 2019收官战正式打响,堪称史上最难

近日,由第四范式、ChaLearn、谷歌联合主办的第五届“AutoDL挑战赛”正式开赛。作为NeurIPS 2019系列比赛的收官之战,此次“AutoDL挑战赛”结合了AutoCV、AutoCV2、AutoNLP、AutoSpeech等多项赛事,旨在让参赛选手设计开发出可解决结构化数据、文本、语音、图像、自然语言处理等不同领域的全自动多分类通用系统。

近年来,深度学习技术飞速发展,并已在语音识别、图像识别、文本分类等领域取得了重要进展,这也促使了深度学习技术需求量的大幅增加。然而,该技术的实现仍然需要大量的专家经验和人工成本。因此,可自动构建深度学习系统的AutoDL技术备受关注。此前,第四范式已先后组织了面向图像、语音、自然语言处理等技术领域的AutoDL系列赛事,此次AutoDL挑战赛”难度设置进一步加大,比赛不只局限在单一技术领域,而是希望通过一套系统应用在多个领域,以推动AutoDL技术的落地应用及快速发展。

参赛报名页面:https://www.automl.ai/

关于比赛

主办方为本次“AutoDL挑战赛”准备了语音、视频、图像、文本、表格等不同领域的15组数据集,其中包括5个离线公共数据集(用于选手开发和训练自己的AutoDL程序)、5个线上公共数据集(用于盲测,选手无法获得数据集任何信息)、5个私有数据集(用于盲测,选手无法获得数据集任何信息)。比赛平台将提供统一配置的GPU服务器进行相同环境相同计算资源的测试,并设定每个评测数据集的运行时长。选手也可使用自行训练的预训练模型。


本次挑战赛分为两个阶段(反馈阶段、最终阶段)。在反馈阶段,参赛选手首先通过下载五个训练数据集,离线开发自己的AutoDL程序,实现从训练数据、模型结构设计、参数调校等过程。然后将自己的AutoDL程序代码上传到比赛平台上,通过另外五个线上公共数据集测试,得到程序性能的即时反馈。在最终阶段,参赛选手的AutoDL程序将在没有人工干预的前提下,通过五个私有数据集进行评估。最终阶段的排名将决定获胜者。

赛事挑战

作为史上最难的“AutoDL挑战赛”,参赛选手将面临如下挑战: 

-如何在不同的数据中自动发现有效信息?

-如何为不同领域的任务自动提取有用特征?

-如何自动处理不同领域的数据?

-如何自动设计有效的神经网络结构?

-如何构建和自动调整预先训练的模型?

同时,参赛选手需考虑:

-如何自动高效地选择恰当的机器学习模型与超参数? 

-如何提高解决方案的通用性?即如何保证解决方案在未知任务中的适用性?

-如何控制计算和内存成本?

赛程时间

2019年12月14日:反馈阶段开始,离线公共数据集发布。参赛选手可以开始提交代码并在排行榜中获得即时反馈。

2019年12月19日:开源 Baseline 3。

2020年2月20日:反馈阶段结束。

2020年2月20日:最终阶段开始。

2020年2月24日:最终阶段结束。

2020年3月15日前:比赛优胜团队被邀请投稿至IEEETransactions on PAMI的 AutoML Special Issue。

赛事奖励

第一名: $2000

第二名: $1500

第三名: $500

AutoML系列赛事

- AutoML @PAKDD 2018

- AutoML @NeurIPS 2018

- AutoML @PAKDD 2019

- AutoML @KDDCUP 2019

- AutoCV @IJCNN 2019

- AutoCV2 @ECML PKDD 2019

- AutoNLP @WAIC 2019

-  AutoSpeech @ACML 2019

-  AutoWSL @ACML 2019

产业神经网络自动机器学习深度学习第四范式
相关数据
第四范式机构

第四范式成立于2014年,是国际领先的人工智能平台提供商,利用机器学习技术,帮助企业提升效率、降低风险,获得更大的商业价值。第四范式坚持以“Empower AI Transformation and Inspire AI For Everyone”为企业愿景,依托于AutoML、迁移学习等技术与企业级人工智能PaaS平台,不断推动人工智能快速、规模化的产业落地。目前,第四范式已在银行、保险、政务、能源、智能制造、零售、医疗、证券等领域积累超过上万个AI落地案例,助力各行各业AI创新变革。

https://www.4paradigm.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~