机器学习正在变得广受欢迎,被应用在了多个领域,包括提升网络安全、增强推荐引擎、优化自动驾驶汽车。以下是InformationWeek总结的11个机器学习应用案例。
阻止恶意软件
2014年,卡巴斯基实验室称他们每天可以检测出32万5千个恶意文件。这个速度是人类,甚至是以签名为基础的安全解决方案都无法胜任的,因此,机器学习和深度学习就显得尤为必要。
商业智能公司Deep Instincet的CTO Eli David说:「几乎所有新的恶意软件与早先的恶意软件的差异不会超过2%。我们的深度学习模型在每天处理2%-10%的突变方面没有任何问题。」
Deep Instinct使用几百万个恶意文件、几千万个合法文件和突变率在20%-50%的恶意软件对模型进行训练。恶意软件的突变越随机,训练就越困难,但他们已经做到使模型更富弹性。一旦训练完成并且「突触」已更新,「突触」的文本文件就能以预测模式运行深度学习程度。
重大医学发现
医疗健康行业一直在寻找各种方法来预防糖尿病或者将它的后果减到最轻。根据CDC2014年发布的一份报告,全美受糖尿病影响的人口高达9.3%,2012年在这方面的花费总计为2450亿美元。
一般来说,领域内专家和数据科学家会构建回归模型来分析能够驱动未来事件的不同自变量之间的关系。他们会设置一个假设来指导分析,以便得出相对可预测的结果。人口健康管理解决方案提供商Medecision的高级副总裁
Larry Schor在接受采访时表示:「机器学习会把我们考虑之外的关系挑选出来。」
Medecision利用机器学习平台来获得对糖尿病患者进行理解和分析,以分辨出哪些病人可以进行「可避免住院」治疗,哪些病人需要急诊室。公司用一个包含800万病人的数据集去训练这个平台。模型定义了能够用来预测「可避免住院」的7、8个变量。分析结果显示,大部分「可避免住院」许可是因为呼吸道感染,这些感染属于糖尿病的并发症,而不是由糖尿病引发。
理解法律术语
法律文件通常非常复杂,一般人很难读懂。因此,许多人会雇佣律师,有些人会略读这些文件,甚至是无视这些文件内容,有些人也会对他们理解法律文件的能力过分自信。针对这些问题,深度学习可以帮忙。
「我们建立了一个法律语言模型,使我们能够将法律语言翻译成一长串数字。我们使用深度学习和拓扑数据分析。很多技术被应用于正常语言的自然语言处理方面,但没有应用于法律语言。」Legal Robot 公司创始人、CEO Dan Rubins说道。除了将法律语言翻译成普通语言,Legal Robot还能判断出协议中缺失了哪些条款,是否多了某些不应该出现这里的条款。
杜绝洗钱
PayPal正在使用深度学习来阻止粒度级别的诈骗和洗钱行为。通过将深度学习和机器学习等其他工具结合起来,公司能够精准的将合法的买家和卖家与欺诈性的买家和卖家分辨出来。
PayPal也使用人类侦探,他们对系统的各种模式进行分析。当他察觉到异常时,会标注上「好事或坏事」来解释这项交易的可能的原因,而机器学习可能使这项工作规模化。
提升网络安全
过去两年,以色列通讯服务商 Orange已经在使用机器学习来保护自身的商业数据和客户数据。公司此前使用「信息检测系统」(IDS)和「安全信息和事件管理系统」(SIEM),但IDS系统每天会发出800次警报。借助于LightCyber Magna的动态破坏侦查系统,它的安全团队能够更加有效的管理破坏行为和可疑行为。
该系统可以监视PC和服务器中的所有流量,将这些汇总起来,以便定义出异常行为并将影响降低到最小。最近,这套系统从一个雇员下载的视频文件中发现了恶意代码。Orange的首席信息安全官Arieh Shalam说:「我们能很好的知道用户的哪些行为能够影响我们的网络以及增加我们的风险。」
体育赛事智能
在环法自行车赛中,如果你对其他对手的位置和状态一无所知的话,你很难改善你的位置。大约有200名骑手参加比赛,但并不是所有人都能出现在电视转播中。这意味着公众、自行车车队、或者参赛者都无法看到完整的赛事。
「如果你在比赛中不是出于领先位置,摄像机不会捕捉到你。而教练需要知道电视转播以外的画面,这样他们才能给参与者提供信息。我们使用人们在社交媒体上的发布的内容来帮助我们知晓比赛中发生的事情。」软件和设备制造商winningAlgorithms的联合创始人、首席数据科学家Robby Ketchell表示。
比起其他类型的数据,社交媒体上的数据可信度更低,因为人们发布的内容中有事实,也有虚构。winningAlgorithms的算法能够判断出这些内容的可信度。在2012年环法自行车赛中,公司能够比赛事的广播系统提前5分钟告诉参赛者发生了什么。这帮助环法参赛队赢得了2013和2014年度的一站比赛。
让汽车更加聪明
IBM商业价值部门近期调查了21个国家的175个汽车公司的高管。74%的人希望到2025年,汽车将会自己实现最优化控制并且基于环境提供建议。更加重要的是,汽车能够对自身、周围环境、驾驶员等进行学习。
IBM商业价值部门全球汽车行业负责人Ben Stanley说:「今天的车辆正逐渐变得越来越有『直觉』,我们在接下来的十年中将看到他们可以自行处理一些事情。它们会被整合进物联网中,它们能够基于环境和主人自行配制,它们能够自动修理,自动驾驶,还能够与其他车辆和网络进行通讯。」
减少电子商务中的欺诈
大型电子商务公司都会部署分析师,以鉴定并减少交易中的欺诈现象。有些是基于最有可能出现欺诈的地区,比如电商公司会阻止来自尼日利亚和乌克兰的交易,但这个办法往往也会阻碍一些合法交易。机器学习可以帮助电商企业应对这些可能出现的欺诈。
Trustev公司是一家致力于为电商提供应对欺诈解决方案的供应商,其CMO Rurik Bradbury这样说道:「当你看待一些单纯的小规模数据时,似乎与欺诈没有必然联系。不过,当你将他们组合在一起的时候就能看到一些蛛丝马迹。如果将一个网站上用户来源、浏览记录、购物车记录等等数据放在一起,普通人无法应对这些庞大而又复杂的数据。」
鉴别欺诈模型的目标是争取在产品发货前鉴定完毕,从而不影响正常的产品发货。根据2015年 CyberSource North American Fraud Benchmark 报告,约有27%的在限订单会因为涉嫌欺诈而重新被人工审核,其中的85%会是有效的。
更好的安检
航班乘客、音乐会观众以及球迷在进入特定场所时,其随身携带的包都要进行安全检查。人类安全检查人员只能大概知道这些人包裹里带的什么东西,而机器学习可以识别每个物品是什么。而且,机器学习可以轻松应付季节变化对于背包类型和包里所装东西的变化,并能够有针对某些特定比赛或场所设置特定检测规则。
Qylur公司 CEO Lisa Dolev表示,比赛时,炸弹、枪支都会被检查出来。自拍杆也不允许带入场地,因为它可能伤到观众,国际足联也不想让国旗被带入球场。当你要应对10万观众进场时,你可能会受到数百甚至上前次的误报警。我们正在努力降低误报警的频率。
客户服务的提升
机器学习能够理解在微观层面理解客户问题,从而提升客户服务的效率。不管客户所需的服务是虚拟还是实体的,抑或是两者兼备,客户和他们的问题可以分为两大类别,比如,产品A和产品B。
预测分析平台公司Lumidatum创始人和CEO Patrick Rice说道:「客户费力度通常与其生命周期直接相关,所以,客户使用产品或(使用服务)解决疑问花费的时间也和他们花费的金钱直接相关。」
机器学习可以轻松地分辨菜鸟客户和经验丰富的客户类型,可以帮助企业做出更多有针对性的客户支持。另一方面,机器学习技术也能够锁定出现问题的具体位置,比如一个客户的问题出现在将商品添加到购物车时无法加载页面,系统会直接提供相对应的解决办法,而不用让客户从头到尾地向客户叙述自己出现的问题。
更聪明的诉讼律师
代理律师常常要从大量卷宗数据中挖掘对案件有价值的数据。对代理律师和他的团队而言,快速精准地从数据中挖到有用信息至关重要。传统的方法是手工检索相关资料,常常花费多个星期甚至几个月。而机器学习能够大大提升检索速度并可以发现一些重要的细节信息。
信息智能软件公司Recommind解决方案经理 Alexis Clark表示:「通过将机器学习与语义分析的结合,你可以发现可表明某人行为模式的线索模型。」
律师有时需要寻找一些特定行为的描述文字,有时则需要为某个特定行为搜索更多资料。但人类会由于自身的经验和过往经历的限制,导致在寻找相关模型时产生偏见,比如寻找最熟悉的。但机器不会,机器学习可以更精确地找到结果,而且速度更快,也会节约成本。
地图化
作为谷歌街景的替代品,全球很多城市都在使用众包的力量进行城市规划,并将城市道路和标牌重新梳理。Mapilliary公司利用机器学习技术将来自1万2000个用户的城市照片组合在一起,以3D视觉化的方式呈现出来。这些图片可以通过API访问使用。 2014年的时候,瑞典的一个城市降低了市中心的车速,从原来的50公里/小时降到40公里/小时,这就需要更新城市里关于车速限制的所有标志。他们将旧的图像提交给Mapilliary,随后Mapilliary提供了所有需要更换标志的位置。 Mapilliary 联合创始人、CEO Jan Erik Solem说:「我们通过用户的输入来不断提升机器智能。当用户上传照片后,机器会得到训练。通过不断的训练,机器的表现也会得到大幅的提升。」
编译:赵云峰、赵赛坡