微软研究院发布开放数据项目,公开内部研究数据集

编者按:微软技术院士、图灵奖得主Jim Gray提出了科研的第四范式——数据科学在科学研究中的普遍性。随着大数据时代的到来,除了计算机科学领域,其它跨学科与跨领域的研究也同样对高质量的数据集存在大量需求。为此,微软研究院发布了开放数据项目,并对外开放了部分内部研究数据集,希望促进全球学术界和产业界的广泛合作。本文翻译自微软研究院博客“Announcing Microsoft Research Open Data –Datasets by Microsoft Research now available in the cloud”,有删减。

近期,微软对外发布了微软研究院开放数据项目(Microsoft Research Open Data),这套新的云数据资料库囊括了微软多年以来在已发表的研究中所使用的数据管理和研究成果。

我们的目标是为研究人员与合作者提供一个简单便捷的平台,来共享数据集和相关研究技术与工具。微软研究院开放数据项目旨在简化对这些数据集的访问流程,促进使用云资源的研究人员之间的协作,实现研究资源的可复用性。

微软研究院开放数据项目中的数据集

随着全球数据总量的指数级增长,人们普遍认为在2025年数据总量就将超150ZB。人们已经认识到应该优先处理数据,而不是依赖缓慢增长的互联网带宽迁移数据。因此我们相信,开放数据集将为学术界和产业界带来巨大的应用价值。

麻省理工学院教授Sam Madden表示“微软开放数据项目将改变大数据时代的游戏规则,能够大大减少数据共享的障碍,借助云计算的力量促进研究资源的可复用性。”

开放了哪些数据集?

微软研究院开放数据项目中的数据集根据研究领域进行分类,涵盖计算机科学、社会科学、物理学、天文学、生物学、经济学等等多个学科领域,如下图所示。

数据集中的分类

微软研究院开放数据项目尽可能达到了数据共享的最高标准,以确保数据集可发现性、可访问性、互操作性和可复用性,且整套数据资料库不包含任何个人身份信息

目前该项目包含了数十个已开放的数据集,我们为大家介绍其中的几个精选数据集:

微软机器阅读理解(MS MARCO)

微软机器阅读理解(MS MARCO)是一个全新的用于阅读理解和问题解答的大型数据集。在MS MARCO中,所有问题都来自于真正匿名用户的搜索查询。用于推断回答的上下文语境则来自于必应搜索引擎抓取的真实Web文档。回答则由人工生成。

文件大小:469.03 MB

文件类型:json

许可协议:微软研究院数据许可协议

类别:社会科学、社交媒体等

详细信息:

https://msropendata.com/datasets/2bda14a7-ee25-4092-8f2f-9272d48ae903

微软研究院社交媒体对话语料库

该数据集集合了从Twitter日志中提取的代表4,232个三步会话片段的12,696个Tweet ID。数据集中的每一行表示一个单独的上下文-消息-响应三元组,众包注释者在李克特量表上为上下文响应质量的评分平均为4或更高。数据已被随机分为开发数据集和测试数据集,分别包含2118和2114个三元组。该数据集仅在自然语言处理社区供学术研究之用。为了访问底层推文和相关元数据,需要调用Twitter API。

如果在研究中使用该数据集,请在文中引用以下文章:

Alessandro Sordoni, Michel Galley, Michael Auli, Chris Brockett, Yangfeng Ji, Meg Mitchell, Jian-Yun Nie, Jianfeng Gao, and Bill Dolan, A Neural Network Approach to Context-Sensitive Generation of Conversational Responses, Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2015), June 2015.

文件大小:245.46 KB

文件类型:txt

许可协议:微软研究院数据许可协议

类别:社会科学、社交媒体等

详细信息:

https://msropendata.com/datasets/2bda14a7-ee25-4092-8f2f-9272d48ae903

SigmaDolphin

SigmaDolphin是2013年初在微软亚洲研究院启动的一个项目,其主要目标是建立一个具有自然语言理解和推理能力的计算机智能系统,专注于自动解题的应用,即自动解决用自然语言编写的问题(特别是数学问题)。

文件大小:11.54 MB

文件类型:json、pdf、pkl、py、txt

许可协议:微软研究院数据许可协议

类别:数学、统计学、逻辑学等

详细信息:

https://msropendata.com/datasets/f0e63bb3-717a-4a53-aa79-da339b0d7992

如何获取和使用开放数据集?

现在可以访问microsoftopendata.com浏览和下载可用的数据集,或者通过自动工作流将它们直接通过Azure订阅复制到基于Azure的Data Science虚拟机上,如下图所示。

数据集可直接复制到基于Azure的Linux虚拟机上

Data Science虚拟机已经预装了许多广受研究人员与开发者欢迎的开发工具,如下图所示。

Linux Data Science虚拟机

微软研究院开放数据项目是微软各个团队、研究人员、行业合作伙伴以及学术顾问的合作成果。在未来,我们还将根据社区的反馈意见继续完善和发展这套云数据资料库。

微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

入门微软研究院开放数据项目
相关数据
神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~