企业应用机器学习的主要障碍有哪些?

如今机器学习的应用虽然越来越普遍,但如同其他新兴应用领域一样,一定会有一些障碍。对于企业来说,官僚化的批准流程、隐私保护、部门壁垒、价值周期长是其在部署机器学习时的主要障碍。

jqzx (41).png

即使在分析工作复杂的组织中,机器学习也存在「专业孤立性」问题。例如,银行中的反金融犯罪部门可能使用先进的技术进行反洗钱;而信用风险团队使用完全不同的、不兼容的工具来预测贷款违约,并基于风险设定价位;而财政部门却又使用另一工具预测现金流。同时,消费服务和分行运作根本就不用机器学习,因为缺乏专业知识和软件。这些部门经常不彼此合作,使得难以为成员、流程和技术建立标准。这种软件的拼接集合提高了全公司应用机器学习的总体拥有成本(TCO)。从外,团队的孤立也使得高层难以开始机器学习。

为了支持数字化转型,机器学习必须要做三件事:

  • 彻底的转换企业商业流程:市场、销售、财务、人力资源、供应链等等;

  • 在全企业支持数据、用户和负载;

  • 融合企业技术堆栈;

Carolina Healthcare System、Cisco 和 PayPal 的例子说明了机器学习转换业务流程的潜力。在许多企业中,这种转换仍处于早期阶段。从平台架构的角度来看,机器学习需要与支撑业务流程的软件平台融合,支持不同背景的众多用户,以及支持不同的项目。

扩展到企业级数据意味着许多不同的事。对支持全公司分析的数据仓库的看法迷惑着大部分公司。从实际来看,机器学习软件必须要能与不同的数据平台对接;消化不同格式的数据:有结构的、半结构的和无结构的;它必须能利用「高」(众多记录)和「宽」(许多列)的数据,并且能使用流数据。

最后,机器学习软件必须要与公司优选的技术堆栈融合。这意味着遵守安全协议;在优选的数据平台上的可操作性;符合操作系统的标准;虚拟化技术等等其他技术。

数据科学家的短缺

有一个普遍的认知就是企业缺乏数据科学家。麦肯锡的一份报告指出这种缺乏将会持续到 2018 年;Venture Beat、华尔街日报等多家媒体都曾报道过数据科学家的缺乏;哈佛商业评论表示要么不找要么降低对数据科学家的标准,因为真正的数据科学家都是独角兽。

招聘难的问题不只是简单的供应与需求的问题。麦肯锡几年前的报告预测缺乏理解大数据的管理层,只不过比数据科学家缺失的差额小而已。学位课程和 MOOC 公开课每年产出数千新鲜的数据科学家。公司可以将机器学习项目推送到中国和印度等国家,因为在其他国家中,咨询公司就掌握了大量的有先进水平的分析师团队。

缺乏专业标准和专业证书造成最大的招聘挑战。如今正在为数据科学家建立专业标准,却没有被普遍接受的标准。每个人都可以自称数据科学家。在 O'Reilly Media 发布的 2016 数据科学薪资调查报告中,29% 的调查对象自称数据科学家,但却说他们花费较少或不花费时间做机器学习项目,也不使用标准的机器学习工具。

对数据科学家合适的角色也不确定。在招聘经理找到带有机器学习技术和经验的人后,实际的工作可能完全不同。在许多公司中,带有数据科学家 title 的人的实际角色是信息检索:使用查询工具保证数据平台的数据安全,从而让用户能在 Tableau 或 Excel 上浏览(O'Reilly 的调查显示 SQL 是最流行的工具)。

这样的误解损害了团队的积极性和激励机制。Stack Overflow 最近的一项调查显示创新和「建立有极大意义的东西」是机器学习专业人士的关键动力,要比其他条例更有激励性。因为一个机器学习人员知道如何使用 SQL 就把他放到「data broker」的角色,这是一种人力资源的误用。

价值的体现需要长久时间

根据 Gartner 的调查,负责高级分析的管理层说建立一个预测模型大约花费 52 天。(Gartner 对高级分析的定义包括统计、描述、预测数据挖掘、模拟和优化。)报告时间线从几天到几月各有不同。管理层都把「开发模型的速度」作为选择高级分析平台的顶级标准,仅次于使用方便度。

管理层想知道:为什么建立且部署预测模型需要这么久的时间?其实有许多原因:

  • 数据难以获得;

  • 数据污染;

  • 传统的机器学习工具不能扩展到大数据;

  • 管理部门批准部署模型的速度太慢,充满官僚主义;

  • 公司对模型部署缺乏明确的流程或技术标准;

大部分数据科学家花费较少的时间训练机器学习模型。在 2014 年,纽约时报报道根据采访和专业评测,数据科学家花费 50-80% 的时间收集并准备数据。今年早些时候,Gil Press 在 Forbes 上发表的文章称 CrowdFlower 的一份数据科学家的报告称调查对象花费 80% 的时间收集、清理和组织数据。

考虑到在企业数据仓库的投资,数据科学家需要花费如此多宝贵的时间来清洁数据是一件很惊人的事。有两个主要原因,首先,企业数据仓库注重对商业智能和性能管理使用案例的支持。这些使用案例是最容易获取的成果;他们有稳定的数据需求和大量的目标用户。然而,机器学习项目却要频繁处理企业数据库不支持的源数据。

第二,数据对机器学习项目的成果非常重要——「垃圾进入/垃圾清除」。有偏见或无效的数据产生有偏见或错误的预测。数据科学家的工作职责是高质量的输出,不能不理会数据问题说是「其他人的问题」。随着社会对算法中偏见的忧虑越来越多,我们期待对数据采集分析过程的可见性会成为普遍采用机器学习的重要因素。这种对责任的需求说明了数据科学家想要掌控数据的流程。

机器学习极其依赖计算基础设施,尤其是大数据。模型开发需要迭代测试和重复测试。2010 年之前,大部分基于机器学习软件的服务器都是单线程的,少有产品支持单机多核并行处理。(例如,SAS/STAT 中有超过 300 个程序,其中只有 22 个支持多线程处理。)

所有的这些顶级数据仓库提供商都在他们的分布式数据集中囊括机器学习引擎。Teradata 在 1989 年就引入了这一能力,IBM 在 1992 年做到这一点,微软 2000 年,Oracle 2003 年,Netezza 在 2006 年加入了机器学习。Greenplum 如今的品牌是 Apache MaDlib。2007 年独立的软件供应商 Fuzzy Logix 在多数据库平台上引入了机器学习库。嵌入 MPP 数据集中的机器学习引擎提供一些潜在的收益,包括减少数据移动,简化部署和一个 MPP 平台的性能。

然而,在实际中,少有数据科学家使用数据库内的机器学习工具。主要有几个原因:第一,减少数据移动意味着一个机器学习项目所需的所有数据就只能是数据库里面的,这很少出现;第二,如果该分析数据集支持消费者喜好的应用我们只能加快部署;MPP 数据仓库中的机器学习库也缺少可用特征,要么强制用户妥协,要么依赖自定义代码。最后,机器学习工作量会分散数据库管理员的注意力,因为它是一些粗笨的、难以预测的工作。许多公司降低数据库内机器学习的部署或者严格的将使用缩减到商业智能的精调上。

虽然关于公司审查模型的时间和通过流程的数据较少,但有证据显示机器学习很重要。负责的管理层要求将影响他们业务的机器学习透明化;没有银行会在不理解模型行为、测试并验证模型的情况下,冒险使用信用风险模型。

在受到监管的产业中,比如银行、保险、医疗中,法律审查是批准流程的一部分。例如在银行中,法律团队会评估信用风险模型从而保证模型没有显性或隐性的歧视效果,当然还有其他的合规问题。

机器学习经验较少的公司可能缺乏模型部署的明确流程。没有明确流程的情况下,每个项目就是一个自定义项目,所以每个 contributor 必须从头开始完成每个人物,缺少最佳实践和标准模块提供的指导。这会花费很长的时间,在一些公司中,不是一个预测模型可能要花费 6 个月或更长的时间。在如今快速前进的商业环境中,这是很长的一段时间。

企业机器学习的挑战

打破机器学习的各种「专业孤立性」是企业机器学习的关键目标。部门之间孤立行事会提高成本,阻碍投资,阻碍数字改革。

技术人员的短缺是管理者们普遍关心的首要问题,因为这阻碍了更广泛的机器学习部署。技术差距部分归因于对于数据科学家,缺少一个专业的标准,机器学习项目 contributor 的角色不清晰。这个技术差距在组织中产生了一个恶循环,因为招聘经理在之前成功案例的情况下可能会无法判断某个人是否胜任机器学习的工作。管理人员的报告中提到,机器学习项目的周期太长是一个关键问题。机器学习项目需要花很长的时间才能产生价值,因为数据中有很多杂乱的东西,而且很难获取;因为传统的机器学习工具无法升级;因为部署模型的批准过程可能很复杂很官僚化;还因为很多组织缺少确定的模型部署程序和标准。

入门人工智能应用创业公司产业观点
返回顶部