Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

李泽南原创

聚焦转折性技术,成立AI创新院:揭秘英特尔人工智能蓝图

人工智能应用已经越来越多地出现在了我们的生活当中,但AI对于算力的无尽需求与芯片制程提升的瓶颈正逐渐成为摆在眼前的挑战。未来AI技术的发展需要硬件与软件架构共同结合并进行革新。

6 月 20 日,由 O'Reilly 与英特尔共同举办的人工智能大会终于进入了主题演讲环节。当日上午,英特尔架构图形与软件集团副总裁、数据分析技术总监马子雅发表了主题演讲,向我们介绍了英特尔在软硬件结合加速 AI 应用方面的成果与未来展望。

「我们正处在一个数据变革的时代,人类历史上 90% 的数据都是在过去几年产生的,其中 50% 的数据更是在最近两年内生成的,」马子雅在大会上说道。「但到目前为止,只有 2% 的数据被真正分析过。这其中最主要的原因就是这些新兴技术,如人工智能从实验室到最终落地,还有很多问题需要解决。」

马子雅在大会上发表演讲。

让 AI 真正解决生产问题

人工智能的应用并不是简单地执行算法。以智慧生产为例,制造商可以在生产线上利用深度学习,尤其是图像识别,将产品的质量检测自动化。如自动检测产品表面缺陷、零部件的缺失、标签的错位。已有很多实践证明,相比人工检测,智慧检测可以大幅提高生产效率,并降低成本。但智慧检测只有深度学习是远远不够的,它需要一条完整的数据分析流水线才能够真正落地。

这条流水线遵循这样的步骤:

  • 第一步,从生产线上收集大量原始数据;

  • 第二步,对原始数据进行大量清理和预处理,滤出数据噪音,查补缺失,校正错误;

  • 第三步,利用数据进行分析、机器学习深度学习对于清理过的数据进行归纳总结,并把有质量问题的场景从生产线上排除出去;

  • 最终把分析可视化。

只有实现了这四步,智慧生产、智慧检测才能落地。

人工智能要走出实验室、实现落地,需要一个完整的数据分析流水线,」马子雅说道,「这个流水线的 20% 可能是在做深度学习,但是 80% 都是在做数据收集、数据存储、数据管理数据清理、数据预处理等等,这是为什么早前我们开源了 BigDL 的重要原因。」

BigDL 是英特尔基于 Spark 平台的深度学习框架。它的功能与流行的深度学习框架,如 TensorFlow、Caffe、Torch 功能相同。重要是,它构建在成熟的 Spark 数据分析平台之上,可以为客户提供端到端的从数据收集、数据存储、数据清理、数据预处理、数据管理机器学习深度学习,以及最终的可视化等服务。在过去两年的时间,已经有很多英特尔的客户利用 BigDL 和 Spark 将人工智能落地。

是否可以把 TensorFlow 和 Spark 进行整合实现落地?英特尔对此开源了 Analytics Zoo。这一工具能够在完整、成熟的 Spark 数据平台之上支持不同深度学习框架,如 TensorFlow、Keras、BigDL 等等。除此之外它还提供深度学习预训练的模型,如图像分析模型,文本处理文本匹配模型,异常检测模型等等。它也提供非常简单易用的 API。因为 Analytics Zoo 是构建在 Spark 集群之上,它可以进行分布式模型训练和推理。

这些软件工具也可以和英特尔最新的硬件技术相结合,获得更高的效率。「在过去几个月里,我们把 Analytics Zoo 在英特尔最新的 Optane(傲腾)内存技术上和 OpenVINO 技术上进行优化。这一过程可以将深度学习、模型训练以及推理性能提升更多,」马子雅介绍道。

AI 是转折性技术

随着机器学习等新技术的快速发展,越来越多的科技公司正在涌现,对于英特尔这样「久经沙场」的玩家而言,如何保持自己的领导地位是首要问题,这家公司寻求的解决方案是大胆创新。

2019 年 1 月,英特尔迎来了新任首席执行官 Bob Swan(司睿博),他在上任首日致英特尔员工、客户与合作伙伴的公开信中就提到:「我们的抱负从未如此之大,在这个越来越以数据驱动的世界里,所有的数据都需要被处理、传输、存储和分析。对此,我们必须持续进击,锐意创新。」

Bob 认为,人工智能5 G 和自动驾驶对于数据的需求正日益增长,英特尔需要专注于引领这些转折性技术的发展:「我们相信,面向未来更加广阔的市场机遇,英特尔能够在助力客户成功方面扮演一个更加重要的角色。我们将着重于改进执行力,加速创新,发展我们强大的文化,并通过严谨的投资实现盈利增长。」

英特尔 CEOBob Swan (司睿博)

英特尔预计,数据中心 AI 芯片的总体潜在市场规模正以 25% 的复合年增长率扩张。预计到 2023 年,整个市场的规模将达到 100 亿美元。2018 年,英特尔获得了全部约 40 亿美元数据中心 AI 芯片机会中的大约 40%,实现了 17 亿美元的 AI 收入。

英特尔遵循客户至上 (customer obsession),致力于把最好的技术提供给用户」马子雅表示。「英特尔在开源方面有很多贡献,我们希望以此能让自己的技术在 CSP、ISP、OEM 中间被广泛应用。而在硬件层面上,我们致力于提供完整的解决方案。」

在 AI 大会的演讲中,马子雅以美的为例介绍了人工智能完整工作流优化的重要性:工厂在生产线上需要对产品质量进行检测。人工检测通常不能达到美的所需的质量检测和检测率。在英特尔与美的的合作中,开发者们在常规服务器集群上利用 Analytics Zoo 构建了完整的数据分析和 AI 解决方案,其将 TensorFlow 和 BigDL 整合在了 Spark 集群之上,不仅可以进行分布式的模型训练和推理,也可以提供完整的数据分析

这一系统可以将图像预处理的速度提升 4 倍,延迟由 200 毫秒降低到了 50 毫秒;也将推理速度提升了 16 倍:从原来的 2 秒降低到了 124 毫秒。相比人工检测,美的的质量解决方案,更精准、更快捷、更自动,并且避免了人工检测对生产行程可能带来的破坏。

英特尔在 AI 生态中已经占据了一席之地。目前,国内前七大云服务供应商都已与这家公司展开了合作。而在终端客户方面,英特尔去年有 30 个客户,目前为止已经有50个,且还在增长中。

「如果不能用于生产实践,人工智能就是没有任何价值的,」马子雅表示。「我们需要打破理论和实践的壁垒。现在的 AI 在预测分析和云端已有很多应用了。但 AI 在高性能计算(HPC)上还有很多发展空间。」

打破理论与现实的壁垒

英特尔正在试图实现完整的 AI 应用堆栈,近年来它已开放了深度学习框架 BigDL、Analytics Zoo 等工具。去年底,这家公司更是提出了 One API 概念,该项目旨在提供一个统一的编程模型,以简化跨不同计算架构的应用程序开发工作。

「我们的垂直化堆栈从硬件到操作系统,再到上层应用,整合了生产流程中所需的所有技术,可以打通硬件架构的优化,」英特尔高级首席工程师、大数据技术全球 CTO 戴金权表示,「在 Spark 上进行机器学习训练,我们的方法可以提供高达 8 倍的性能提升。如果优化仅限于各个部分,我们无法实现这样大的优势。通过全栈软件技术(Vertical stack)我们可以让用户得到更好的性能和算力。」

对于开发者来说,数据清洗与特征生成是一个非常繁琐的过程。英特尔希望通过自身努力不断降低 AI 开发的门槛。据悉,在 Analytics Zoo 中很快也将加入 AutoML 等功能。

英特尔目前的软件产品堆栈。

虽然在人们的印象中,英特尔是一家芯片公司,但实际上它已在软件领域耕耘多年——这家公司现在拥有 15,000 余名软件工程师。

「我们不止是在做 AI 软件,AI 的应用还需要很多工作,」马子雅介绍道。「我们会对每一层软件的优化,尽可能挤出硬件的全部性能。最终所有的软件加起来,可以提升 8 倍,而不是 1-2 倍。常规的高性能计算(HPC)架构已经被人们使用很多年了,AI 则是新发展出来的架构。如何把旧架构和新架构统一结合起来是我们面临的挑战。目前看来,数据分析和 HPC 的整合趋势已经越来越明显了。」

在大会上,英特尔还宣布成立了「大数据分析人工智能创新院」,由戴金权任院长。此举旨在吸引公司与学界、业界的更多合作。

「以前的创新机构通常会进行点对点的合作,我们成立的新机构希望能够与全球生态中的成员有更广泛的合作。其中包括终端客户、合作伙伴、开源社区、学术界。这是与此前其他合作方式的不同。」马子雅表示。

据介绍,这所创新院的工作将主要集中在三个方面:

  • 加速人工智能在中国市场的落地,通过 AI 与数据分析的整合来加速落地;

  • 解决中国市场的最新需求,引领创新用法、创新算法;

  • 帮助中国市场更好地使用英特尔最新的软件和硬件技术。

英特尔希望通过此举进使得更多的企业和个人得益于最新技术进步,使人工智能真正的做到普惠。

人工智能业务的需求牢牢地根植于数据,利用大数据获取更多的洞察需要完整而全面的战略,只有充分利用以数据为中心的基础架构,充分利用将数据分析人工智能无缝衔接起来的软件技术,才能获得成功。」马子雅表示。

产业英特尔马子雅软硬件结合
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

异常检测技术

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。 异常也被称为离群值、新奇、噪声、偏差和例外。

数据清理技术

数据清理(data cleansing)指删除、更正数据库中错误、不完整、格式有误或多余的数据。数据清理不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清理软件能够自动检测数据文件,更正错误数据,并用全企业一致的格式整合数据。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

推荐文章
暂无评论
暂无评论~