逻辑回归 | 机器之心

简介

通过线性回归我们可以将具有高度统计相关性的数据拟合出一条直线，并通过这条直线对新的数据进行预测。而逻辑回归模型正是希望通过x的线性函数对K个类别的后验概率进行建模，同时确保他们的和为1，且都在[0,1]中。该模型具有以下性质：

$\log{\frac{Pr(G=1|X=x)}{Pr(G=K|X=x)}} = \beta_{10} + \beta^T_1 x$

$\log{\frac{Pr(G=2|X=x)}{Pr(G=K|X=x)}} = \beta_{20} + \beta^T_2 x$

...

$\log{\frac{Pr(G=K-1|X=x)}{Pr(G=K|X=x)}} = \beta_{(K-1)0} + \beta^T_{K-1} x$

该模型利用了K-1次对数变换，并确保了这些概率的总和为1。尽管该模型使用了第K个类别作为概率中的分母，但实质上分母的选择可以是任意的。通过进一步简单的计算我们可以得到：

$$Pr(G=k|X=x) = \frac{exp(\beta_{k0} + \beta^T_k x)}{1 + \sum^{K-1}_{l=1} exp(\beta_{l0}+\beta^T_l x)}, k=1,...,K-1$$

$$Pr(G=K|X=x) = \frac{1}{1 + \sum^{K-1}_{l=1} exp(\beta_{l0} + \beta^T_l x)}$$

其中，$y = \frac{1}{1+e^{-x}}$被称为sigmoid函数。很显然，逻辑回归模型是将线性函数的结果映射到sigmoid函数上。通过以上公式，我们可以看出前K个类别的概率总和确实为1。当K=2时，该模型只有一个线性函数，在生物统计学中二项反应模型应用广泛，例如判断病人的获救或死亡概率，心脏病的有无，以及某种条件的出现或不出现等。

拟合逻辑回归模型

逻辑回归模型通常用极大似然估计，即给定X，使用G的条件似然。对于N个观测对象，其对数似然函数为：

$$l(\theta) = \sum^{N}_{i=1} \log p_{g_i} (x_i; \theta)$$

其中，$p_k(x_i ; \theta) = Pr(G = k | X = x_i ; \theta)$。

我们以二分类为例，讨论当K=2时的情况：

通过0或1来反应$y_i$值，即当$g_i=1$时，$y_i=0$；当$g_i=2$时，$y_i=1$。设$p_1(x;\theta) = p(x;\theta)$，而$p_2(x;\theta) = 1- p(x;\theta)$，对数似然函数可写作：

其中，$\beta = \{\beta_{10}, \beta_1\}$，并且我们假设$x_i$包含一个常数1，以便接纳截距。

为使对数似然最大化，令其导数等于零：

$$\frac{\partial{l(\beta)}}{\partial \beta} = \sum^{N}_{i=1} x_i (y_i - p(x_i;\beta)) = 0$$

该方程可通过Newton-Raphson算法以及迭代加权最小二乘法（IRLS）求解，在此不做详细阐述。多数情况下，因为对数似然函数为凹函数，该算法确实收敛，但也有可能产生过拟合的问题；少数情况下，对数似然函数递减，通过减半步长将保证收敛性。

（描述来源：Trevor Hastie, Robert Tibshirani and Jerome Friedman (2nd ed., 2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction.）

发展历史

描述

自增长曲线被发现以来，在超过175年的时间里，我们已经完全认可了逻辑回归模型作为一种解释二元数据的有效方法。时至今日，逻辑回归模型已经是解决分类数据里二分类模型的应用最为广泛的模型之一，曾被广泛用于医疗及体育。具体地说，逻辑回归始于19世纪对人口增长的描述及自催化反应的研究，比利时统计学家Verhulst在协助其导师研究指数增长期间发现并命名了逻辑方程（logistic function），并于1838至1847年间发表了三篇相关论文。1922年，美国生物学家Raymond Pearl基于Verhulst的方程发表了一系列相关论文，用于解释人工增长模型，并提出了另一种logistic function的表达方法。英国科学家Yule（1925）与Wilson（1925）进一步完善了该模型，其中Wilson是第一个将logistic应用于生物测定的生物学家。此后该方程被广泛用于生物医疗领域，直到1973年，美国加州公共交通方案的顾问MCFadden将多项式logit模型与数学心理学中的离散抉择理论相联系，并因此获得2000年的诺贝尔经济学奖。

该方法虽然起源甚久，但真正意义上第一次出现logistic regression这个词是在1958年David Cox的一篇论文中，该论文主要为了解决如何求得本文定义及描述中的参数$\beta$。

（描述来源：J.S.Cramer, The origins of Logistic Regression）

主要事件

年份	事件	相关论文/Reference
1838 - 1847	比利时统计学家Verhulst为logistic function命名	Verhulst, Pierre-Francois (1838) Notice sur la loi que la population suit dans son accroissement. Correspondance mathématique et Physique, publiée par A. Quetelet, 10, 113-120
		Verhulst, Pierre-Francois (1845) Recherches mathématiques sur la loi d’accroissement de la population. Nouveaux Mémoires de l’acidémie Royale des Sciences, des Lettres et des Beaux-Arts de Belgique, 18, 1-38
		Verhulst, Pierre-Francois (1847) Deuxième Mémoire sur la loi d’accroissement de la population. Nouveaux Mémoires de l’acidémie Royale des Sciences, des Lettres et des Beaux-Arts de Belgique, 20, 1-32
1922	Pearl在研究美国人口增长时提出logistic function另一种表达方法	On the Rate of Growth of the Population of the United States Since 1790 and its Mathematical RepresentationRaymond Pearl, and Lowell J. ReedPNAS 1920;6;275-288 doi:10.1073/pnas.6.6.275
1942	Wilson将logistic function应用于生物测定	Wilson, E.B. and Jane Worcester (1942) The Determination of L.D.50 and Its Sampling Error in Bio-assay. Proceedings of the National Academy of Sciences, 29, 79-85
2001	McFadden于诺贝尔奖颁奖典礼演讲	McFadden, Daniel (2001) Economic Choices. (Nobel Prize acceptance speech.) American Economic Review, 91, 352-370

发展分析

瓶颈

目前在机器学习领域针对逻辑回归的优化有很多，但一般都是采用迭代的方式逐步逼近最小值，通常会造成之前提到的收敛性与过拟合等问题，其中过拟合问题可以通过减少模型复杂度（正则化等）或增加训练集个数来解决。

未来发展方向

逻辑回归模型作为一种基础数学工具，在各个领域的分类问题依然有着较大发展方向。

Contributor: Han Zhang

简介