Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

沈向洋作者

Azure,人工智能的最佳云平台

微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士

Build大会(微软全球开发者大会)向来是我最爱的年度盛会。看到那么多开发者用微软的工具和平台打造出那么多炫酷的创新成果,不仅让我感到自豪,更让我倍受鼓舞。

今年大会的核心主题是如何将微软关于智能云计算与智能边缘计算的愿景转化为现实Azure就是我们实现这一愿景的关键,这是我们为实现智能而打造的最佳云平台,它融入了我们在人工智能领域的全部投入与技术积累。

让我给各位分享几个亮点:

  1. 首先,是我们基于云与边缘计算人工智能服务。三年前,我在旧金山举办的Build大会上正式发布了微软认知服务。今天,已经有100万开发者使用了我们的服务!通过认知服务,我们为大家提供了最广泛的、可定制的人工智能技术,而且同时适用于云与边缘计算。而最让人感到兴奋的,还是看到我们的开发者利用这项服务创造出的无限可能。

    在Build会场上,我与罗彻斯特理工学院的教授Brian Trager进行了实时的对话交谈。这或许不足为奇,但如果我告诉你Brian是失聪的,而我当时说的是汉语呢。我们通过努力将阻碍人们沟通的障碍变成了新的机遇。

    今天,我们发布了一项统一语音服务,其中包括针对特定人声(比如Brian的声音)和环境噪音的可定制声学模型、针对特定术语的语言模型和翻译功能,以及能对发声进行定制的文本到语音转换功能等。通过这篇文章你可以了解到我们与罗彻斯特理工学院合作的更多详情

  2. 接下来要说的是我们如何实现对话式人工智能——想象一下让微软小娜(Cortana)这样的数字助理或者对话机器人能够像真人一样自然地与你交流。我们的Bot Framework(机器人框架)能够让开发者和企业轻松上手,并且受到了用户的广泛喜爱。自两年前萨提亚在Build大会上首次发布Bot Framework已经有30万开发者参与尝试,每天都有新的开发者加入进来

    对于今天的开发者来说,这是个不容忽视的前景:对话机器人正在成为新的应用。作为开发者,你必须要懂得如何构建一个对话机器人,以及如何部署和运行它。今天,我们看到了大量来自企业的推动和需求——他们要的不只是像微软小娜这样的智能助理,更需要可以用于人力资源管理、招聘、客户支持和服务等领域的业务机器人

  3. 今天我们正处于一个非常独特的发展阶段,人工智能在开源框架内取得了尤为活跃的发展。这意味着开放人工智能(Open AI)平台与工具是至关重要的。我们看到了显著的增长和动能:迅速而强劲的创新节奏,以及推动我们开放的人工智能战略。

    我们不仅支持诸如TensorFlow、CNTK这样的深度学习平台,也在通过ONNX合作引领和推动着行业内的互操作性。通过与脸书(Facebook)的合作,我们发起了ONNX,旨在让任何深度学习框架在任何芯片与任何设备上都能运行。我们的发展势头相当迅猛,已经有包括亚马逊在内的15家公司支持ONNX,并且还有更多公司正在加入进来。就在上周,我们刚刚宣布Azure机器服务和数据科学虚拟机(DSVM)支持PyTorch 1.0——目前已经有六种顶级框架支持ONNX,其它框架则可以通过转换器获得支持。

  4. 实时人工智能基础架构。为什么说实时的人工智能推算能力非常重要呢?拿图像识别举例来说,视频流、图像处理都是最消耗资源的过程,如果对每一帧图像都能以飞快的速度进行处理,自然是非常好的体验,但事实是,开发者仍然需要在批尺寸(batch size)与性能之间做出取舍。

    这已经成为过去。在Build大会上,我们介绍了Project Brainwave,它能利用Azure上最先进的FPGA基础架构完成实时的人工智能处理。现在用户通过实时的单一批数据,就能得到以往需要多得多的批数据处理才能得到的性能。这意味着你所装入的全部人工智能都能得到实时的计算。而且,FPGA不仅仅只在云端提供——通过合作伙伴,我们也可以利用Azure Stack在本地提供FPGA。如此强大的威力不仅存在于云端,同时也适用于边缘计算,这将让更多创新成为可能。

  5. 最后值得强调的是,我们向开发者开放微软研究院与人工智能事业部的资源。27年前,微软研究院创立的时候,最早成立的三个研究组都是围绕人工智能展开的:自然语言、语音与计算机视觉。微软研究院在人工智能研究上成果卓著。两年前,我们在ResNet测试上以152层、96%的准确率拔得头筹;一年前,我们在Switchboard语音识别基准测试中的错误率已经降低至5.1%,达到了媲美人类专业速记员的水平;今年1月,我们第一个在斯坦福大学发起的SQuAD文本理解挑战赛上获得超越人类的分数;两个月前,我们宣布在对新闻报道测试集的英中、中英机器翻译上实现了比肩人工翻译的水平。想要让人工智能真正达到人类的水准当然还有很长的路要走,但我们会为之不懈努力。

    我们始终致力于确保微软在尖端研究领域所取得的突破和成绩,最终都要服务于我们的开发者。例如AI.lab网站,其目的就是帮助我们不断增长的开发者社区更好地相互分享他们的人工智能实践。任何想要学习人工智能的开发者都可以访问微软AI School,免费获得我们提供的在线课程、指导和资源。

人工智能机器学习领域,微软不仅是主要的领导者,更是受到企业和开发者广泛信任、并为之大力投入的技术合作伙伴。原因很简单——Azure是人工智能最佳的云平台。许多开发者和企业已经利用它创造出许多奇妙的应用,他们未来还能创造什么,我已经急不可待!

微信超链接:https://mp.weixin.qq.com/s/7ZWOyNP_fGSOcAbakryPOA

微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

产业Azure语音识别Build大会Open AI云计算边缘计算机器学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

边缘计算技术

边缘运算(英语:Edge computing),又译为边缘计算,是一种分散式运算的架构,将应用程序、数据资料与服务的运算,由网络中心节点,移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解,切割成更小与更容易管理的部分,分散到边缘节点去处理。边缘节点更接近于用户终端装置,可以加快资料的处理与传送速度,减少延迟。在这种架构下,资料的分析与知识的产生,更接近于数据资料的来源,因此更适合处理大数据。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

批次规模技术

一个批次中的样本数。例如,SGD 的批次规模为 1,而小批次的规模通常介于 10 到 1000 之间。批次规模在训练和推断期间通常是固定的;不过,TensorFlow 允许使用动态批次规模。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~