数据科学中的陷阱:定性变量的处理

在之前的文章里(《数据科学中的陷阱:变量的数学运算合理吗?》),我们讨论过定性变量,也就是表示类别的变量,比如性别、省份等。对于这类变量,不能在模型里直接使用它们,因为定性变量之间的数学计算是毫无意义的。另一方面,定性变量是一类很常见的变量,通常带着很有价值的信息。因此,这篇文章就将讨论如何正确地在模型里使用定性变量。

对于定性变量,常见的处理方法有两种:一种是将定性变量转换为多个虚拟变量,另一种对将有序的定性变量转换为定量变量。

一、虚拟变量

正如前文中讨论的,直接对定性变量数字编码,得到的变量将无法进行有意义的数学运算。那么,相应的解决方法就是使得变换之后的变量不能直接做数学运算。

为了便于理解,我们先来看一个简单的例子:使用身高和性别对体重构线性回归模型。性别是一个二元定性变量,可能的取值为男或女。用两个新生成的变量来取代性别,记为(x1, x2)。其中,x1 = 1表示性别为男, x1 = 0表示性别不为男; x2类似,表示性别是否为女。在学术上,新生成的变量被称为虚拟变量(dummy variable)。虚拟变量是一种特殊的离散型变量,可能的值只有两个:0或1,因此也被称为0/1变量。

用y表示体重, z表示身高,于是有:

y = ax_1 + bx_2 + cz + d + \varepsilon \tag{1}

注意到 x_1 + x_2 = 1 ,也就是变量和变量成线性关系。这会导致另外一个问题:多重共线性(多重共线性源自线性模型,它是指由于自变量之间存在高度相关关系而使模型参数估计不准确,我们会在后面的文章里详细讨论)这个由虚拟变量引起的多重共线性问题在学术上被称为虚拟变量陷阱(dummy variable trap)。为了规避这个问题,我们对公式(1)做如下的数学变换,得到:

y = (b - a)x_2 + cz + (a + d) + \varepsilon \tag{2}

上面的数学转换可翻译为:首先选择性别男为基准类别,生成一维虚拟变量,变量的含义与之前相同。这个变量前面的系数b - a表示性别女相对于性别男(基准类别)的体重差异。需要注意的是,针对二元定性变量,从表面上来看,直接对变量数字编码同虚拟变量效果一样。但这只是一个巧合而已,两种方法有本质的区别。

将上面的方法推广到n元定性变量(可能取值为n个的定性变量)。选择一个类别作为基准类别,并生成n - 1个虚拟变量,分别表示剩下的n - 1个类别。在搭建模型时,用这n - 1个新生成的虚拟变量代替原来的定性变量。具体过程如图1所示。

图1

二、从定性变量到定量变量

前面讨论的虚拟变量的方法是比较通用的处理方法。但这种方法有一个很明显的缺点:每个虚拟变量都是0或1,无法提供更多的信息。特别是对于多个有序的定性变量,这会损失掉每个定性变量本身的顺序信息和定性变量间的关联信息。为了解决这个问题,常常根据类别的顺序,将定性变量转换为定量变量。具体的转换方法有很多,但限于篇幅,这里只讨论其中的一种:针对二元分类问题的Ridit scoring(此方法在保险业中应用很广),如图2所示。

假设有序的定性变量x有t个可能的取值,记为 (1, 2, ... t) 。而且对于被预测值,排在后面的类别,y = 1发生的可能性越小。也就是说,对于y = 1这件事,其他变量相同时,类别1的概率最大,类别t的概率最小。用 (p_1, p_2, ... p_t) 分别表示各个类别所占比例,于是类别的Ridit scoring为:

R_i = \sum_{j < i}p_j - \sum_{j > i}p_j \tag{3}

图2

对于一般的定性变量,我们也可以使用所谓的WOE(weight of evidence)方法来将其转换为定量变量,这种方法在信贷风控领域十分广泛。具体来说,假设二元分类问题里有两个类别,用B和G表示(这样标记源自金融领域,B表示bad,G表示good)。同样假设,定性变量x有t个可能的取值,记为 (1, 2, ... t) 。那么对于取值i,它的WOE值为:

WOE_i = \ln \frac{B_i / B_t}{G_i/G_t} \tag{4}

其中 B_i 表示x等于i时,B类别的数量,B_t 表示B类别的总数量;G_iG_t表示的意思类似。

注:这篇文章的大部分内容参考自我的新书《精通数据科学:从线性回归深度学习

理论数据科学
4
相关数据
分类问题技术
Classification

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

线性回归技术
Linear Regression (function)

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

重构技术
Refactoring

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

tgbaggio
tgbaggio

机器之心编辑

唐亘的专栏
唐亘的专栏

唐亘,数据科学家,《精通数据科学:从线性回归到深度学习》一书作者。热爱并积极参与Apache Spark、 scikit-learn等开源项目。作为讲师和技术顾问为多家机构(包括惠普,华为,复旦大学等)提供百余场技术培训。

推荐文章
返回顶部