CoolBoy、魏子敏记者

美国中佛罗里达大学王中庆教授:智能化建模是包含自动化的一种新的方式

在这个大数据盛行的时代,许多人对“机器学习、商业智能”这些名词只闻其声,不知其形,如何将大数据建模普及可能会是未来的一个焦点。本次我们邀请到美国中佛罗里达大学统计系教授王中庆老师,来与大家分享智能化建模的奥秘以及他对未来大数据技术的展望。


人物介绍:王中庆教授

王教授于1991年获得美国爱荷华大学统计博士学位,现任美国中佛罗里达大学教授兼数据挖掘中心主任。主要研究方向为数据挖掘,网络挖掘,数据挖掘在商业智能,教育智能及健康智能的应用。

指导过的学生团队在2011、2012和2016年国际SAS数据挖掘竞赛获胜。曾担任美国富国银行( WELLS FARGO)、美国蓝十字蓝盾保险公司( BlueCross and BlueShield)、美 国 Whole Foods Market、美国恒久银行( Ever Bank) 数据分析顾问。

文摘:目前市面上已有不少AI自动化工具(如谷歌的AutoML、国内第四范式的先知平台)相比,智能化建模与这些产品是一致的吗?

王:这里提到的平台,基本进行的是自动化建模工作。而智能化建模是包含自动化的一种新的方式。在建模之前,系统会对数据进行预处理,提取出更多的信息量。比方说,数据中的缺失值就包含了很多信息,因为测不到数据也反映了某些事件的特征。那么利用MVP(缺失值补全技术)处理数据,可能就会使保险公司的事件预测准确度增长。

同时,提到的这些自动化建模工具做了许多人脸识别、声音识别的工作。这些数据的信息量大,使用深度学习的模型会有优势 。而智能化建模更适用于噪音相对高、信息量低的金融信贷和保险的数据,使用数据清洗和传统的数据挖掘方式进行智能建模。 在银行里对于不同的客户快速建立不同的模型,把更多的时间放在决策上的话,价值就很快体现出来了。

很重要的一点是,相对于优化测试准确率的传统建模观点, 智能化建模会略微牺牲准确率,专注于缩小训练准确率和测试准确率的差,也就是提升模型的稳定度。

另外,为了提升建模的速度,全局搜寻的方法应该被避免,最好是在每一步追求局部的最佳解。局部解的累积虽然可能不是最佳解,但是相对上会是一个理想的结果,并且会大大提升建模的速度。

文摘:如何平衡模型的速度、准确率和稳定度呢?

王:首先,在数据清洗阶段,使用Java这个较快的语言会提高效率。 其次,建模阶段,我们使用了Python 的扩展库,并且采用平行处理的技术进行提速。这个平行处理平台是由我的合作伙伴蒋总亲自带队开发的,会比市面上流行的平台,如Sparks,更有效率。这个过程中还会有统计方法的介入,比如建立树模型的时候,如果先预计出一个最佳的层数,建模会省去很多不必要的时间。

在建模方面,我们对于每个变量首先进行缺失值处理,之后会对每个变量依次进行非线性变换与筛选。具体的说就是先计入单个变量的全部变换,再根据不重要性进行剔除。之后要分别建立不同模型,如树模型、线性模型等,再依照一定的规则进行模型混合。  为了控制模型的稳定度,一些正规化手段需要被采用。

之前有提到,智能化建模目前针对的行业,数据噪音都比较高。这就意味着,现实的情况和训练的数据会有一定的差距。因为我们要保证业务部门使用模型的时候,得到的反馈和试验的时候差不多,所以我们需要保证模型的稳定度,这样合作的公司使用智能建模的时候我们才会放心。

同时,未来的数据和现在的数据相比也会有一定的差异。由于现在社会发展很快,我们的生活习惯也改变得很快,比如在长途旅行上,大家以前更多选择飞机,现在则会考虑高铁。时间差会带来生活方式的改变,自然也就会带来数据的差异。从这个角度看,专注于测试准确率便不是一个理想的选择。那么实际情况也是如此--从敲定合同到产品部署,从获取数据到训练模型,都存在时间差。相比强调准确率,强调稳定度可以使模型适应这一时间差。

文摘:那么您对于自动化与智能化建模的前景与看法是怎样的?

王:这应该是未来的趋势。目前像传统行业,比如金融、保险,或是非传统行业,比如电商,基本没有不用数据的行业。

有些公司可能有专业的建模人员,但是人工建模需要先预处理数据,选择模型,选择变量,之后还要调试参数,需要花费很多时间。如果有1000个项目,在有限的时间内,可能人工只能建立起其中的100个,但是利用智能建模技术就可以完成这1000个建模任务。并且如果“建立模型”和“使用模型”都由同一个人来完成,更多的精力就可以放到制定决策上。

经管类的同学,有时需要数据建模来解决项目上的问题。利用智能建模技术,这些同学就可以在没有数据科学的背景下就完成建模,然后把更多的精力投入到问题的本身,从而提高效率。

想想手机的例子:十几年前,大家的手机只用来打电话发短信。而现在智能手机除了这些基本功能,还取代了钱包,甚至公交卡。我认为大数据会像智能手机一样,一定会改变我们的生活。那么将数据智能建模普及各个行业就会是一个大趋势。

我注意到最近也有开源的自动建模工具Auto-Keras发布。这些开源的工具肯定有它的优点,但主要还是面向数据从业人员的建模工作。而我们希望将智能化建模的工作交给无相关经验的人员,让他们可以简单完成数据建模。

另外,市面上现在有一些公司,如SAS,已经开发出了一些半自动的建模工具。在这些工具上,建模人员可以通过输入一些参数,自己调试来完成建模任务。而智能化建模技术则是在这个基础上迈出了更简化的一步。

之所以这些公司不愿意迈出这一步,是因为目前的软件会带来很多的,很稳定的年收入。如果进行了技术革新,他们需要重新发展整个市场,这就带来了不确定性,所以这些公司对革新一事还是保持慎重的心态。虽然现在智能化建模有着灵活性稍差,准确率稍低等缺点,但是,我认为全自动化的智能建模技术终究会取代这些产品。

目前金融和保险还是智能化建模针对的主要方向,之后我们希望这项技术能应用到电网公司、风电公司、甚至整个工业大数据的方向来。

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业智能化建模
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

推荐文章
暂无评论
暂无评论~