特征工程

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

来源:Wikipedia
简介

在机器学习中,特征工程是数据准备的一项中心任务。它从给定特征中构建合适的特征,从而提升预测的性能。特征工程涉及到变换函数的应用,比如将算术和聚合算子用在给定特征上来生成新的特征。变换有助于缩放特征的大小或者将特征与目标之间的非线性关系转换为线性关系,更易于学习。

特征工程通常由数据科学家凭借其专业知识以及迭代试验的误差结果分析和模型评估来完成。 在特征工程的自动实现上,目前已提出了一些方法:比如在特征空间中利用对启发式特征品质的测量(如信息增益)进行引导性搜索;基于模型评估的特征构建和特征选择方法;采用数据科学机器(DSM),将特征工程看作是新特征空间的特征选择问题,穷举所有可能从数据集中构建出的特征,然后从这些特征中进行选择等。但是穷举选择的方法可能会造成计算时间和内存上的大成本,并导致过拟合问题。此外,尽管深度神经网络(DNN)能够自动学习元特征,但是这些学到的特征并不总是可解释的,在许多应用领域上DNN并非有效的学习手段。

[描述来源:论文Learning feature engineering for classification;URL:https://www.ijcai.org/proceedings/2017/0352.pdf]

Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

特征工程的过程包括:

  1. 头脑风暴或者测试特征
  2. 决定要构建的特征
  3. 构建特征
  4. 检查特征在模型中的效用
  5. 根据需要提升特征
  6. 回到头脑风暴步骤或者构建更多特征直到最终完成

[描述来源:Wikipedia;URL:https://en.wikipedia.org/wiki/Feature_engineering]

发展历史

描述

特征工程在机器学习中占据重要地位,可以帮助机器学习更好地完成任务,在Kaggle, KDD cup等相关竞赛中也发挥着重要作用。之前,采用人工特征工程已经能较好地完成垃圾邮件的过滤等任务,但是现下特征工程的自动化变成学术界中一个热门的研究课题。2015年,MIT的研究人员在一个在线数据科学竞赛中展示了深度特征合成算法并论证其有效性。该算法打败了906支参赛队伍中的615支队伍,并且已经是一个名为Featuretools的开源库。之后,这个工作被其他研究者继续跟进,比如IBM的OneBM和伯克利大学的ExploreKit。IBM的研究人员称,特性工程自动化“帮助数据科学家减少探索数据的时间,让他们能在短时间内尝试更多的想法并发现其中的错误。另一方面,它能让熟悉数据科学的非专业人士用最少的精力、时间和金钱快速提取数据中的有价值信息。”

主要事件

年份事件相关论文/Reference
1999用于文本分类的特征工程Scott, S., & Matwin, S. (1999, June). Feature engineering for text classification. In ICML (Vol. 99, pp. 379-388).
2007用于垃圾短信识别的特征工程Cormack, G. V., Hidalgo, J. M. G., & Sánz, E. P. (2007, July). Feature engineering for mobile (SMS) spam filtering. In Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 871-872). ACM.
2011在内容相关的深度神经网络中的特征工程Seide, F., Li, G., Chen, X., & Yu, D. (2011, December). Feature engineering in context-dependent deep neural networks for conversational speech transcription. In Automatic Speech Recognition and Understanding (ASRU), 2011 IEEE Workshop on (pp. 24-29). IEEE.
2015Kanter, J. M., 和 Veeramachaneni, K.提出了深度特征合成算法实现特征工程自动化Kanter, J. M., & Veeramachaneni, K. (2015, October). Deep feature synthesis: Towards automating data science endeavors. In Data Science and Advanced Analytics (DSAA), 2015. 36678 2015. IEEE International Conference on (pp. 1-10). IEEE.
2016伯克利大学的学者开发了可用于自动特征生成和选择的ExploreKitKatz, G., Shin, E. C. R., & Song, D. (2016, December). ExploreKit: Automatic Feature Generation and Selection. In Data Mining (ICDM), 2016 IEEE 16th International Conference on (pp. 979-984). IEEE.
2017IBM公司提出OneBM实现特征工程自动化Lam, H. T., Thiebaut, J. M., Sinn, M., Chen, B., Mai, T., & Alkan, O. (2017). One button machine for automating feature engineering in relational databases. arXiv preprint arXiv:1706.00327.

发展分析

瓶颈

当需要提取的特征数目不断增大时,特征工程的算法也需要获得相应的提升和改进。

未来发展方向

大数据时代下,特征工程与深度学习的结合,实现自动化特征工程成为未来一大发展方向。

Contributor: Yueqin Li

相关人物
Xie (Jeff) Chen
Xie (Jeff) Chen
Dawn Song
Dawn Song
Kalyan Veeramachaneni
Kalyan Veeramachaneni
Max Kanter
Max Kanter
陈蓓
陈蓓
IBM数据科学家,主要关注时间序列分析和预测、概率预测、无监督学习和大数据分析。加拿大滑铁卢大学统计学博士。
俞栋
俞栋
俞栋,语音识别与深度学习领域的专家,现任腾讯AI Lab(人工智能实验室)副主任。俞栋曾在语音识别领域出版了两本专著并发表过大量论文,也是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。
Mathieu Sinn
Mathieu Sinn
简介
相关人物