王梦泽、笪洁琼 、夏雅薇编译

业界 | 数据科学家要先学逻辑回归?图样图森破!

逻辑回归的结果很难解读,在真实的商业环境中考虑到你要跟你的老板或同事解释模型的时候,有可能自己都无法解释清楚,所以慎用纯粹的逻辑回归,尤其是对于初学者来说,这是作者对逻辑回归的建议。

近期,数据科学圈出现了不少“数据科学家应最先学习逻辑回归”的声音。作为一名与市场营销人员、销售人员、工程师一起工作的“孤立的”统计学家,我深深反对这一说法!

有许多工作尤其是生物统计领域都要求从业人员能够掌握并运用逻辑回归的知识。如果你在大学曾学过一些逻辑回归,这会对你很有帮助,但对于初学者来说,它并不是入门课程。

在我的职业生涯中,我可以灵活地选择使用哪些方法和工具,如今许多从业者都处于类似的环境中。

因此有一定的几率,初学者在对逻辑回归的原理了解很少的情况下,使用像黑盒工具一样的逻辑回归,然后把自己拉入深坑。

下面列出了5条逻辑回归应放在最后学习的理由:

  • 存在着上百种不同类型的逻辑回归,一些适用于分类变量,一些适用于特定的分布(例如泊松分布)。专家在使用时也常常感到困惑,初学者和你的老板更会如此。

  • 转换因变量后(通常是比例或二值型因变量,例如本文观点正确/错误),问题就变成了线性回归。虽然纯粹主义者声称实际的逻辑回归模型更精确,然而相较于模型的精确度,数据的质量才是至关重要的。如果数据有20%的噪声,或者理论模型是对实际情况的粗略估计,那么模型精确度高出1%并没有实际用处。

  • 除非能够妥善处理(例如使用ridge或Lasso回归),否则在噪声、缺失值和脏数据的影响下会导致模型过度拟合及缺乏稳健性(使用例如梯度优化等技术的迭代算法)。

  • 逻辑回归的系数不容易解释。当你对决策者或者其他部门解释模型时,很少有人能够理解。

  • 最好的模型通常会将多种方法混合到一起,以便能尽可能多的获得/解释差异。在我作为数据科学家长达30年的职业生涯中,从未使用过纯逻辑回归,但我开发出了一项更加稳健且便于使用及编程的混合技术,结果也容易解读。它将“不纯的”逻辑回归和“不纯的”决策树混合在一起,效果十分显著,尤其是对于你的“不纯”数据评分时。详情请戳。

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

入门线性回归逻辑回归
1
相关数据
逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

推荐文章
暂无评论
暂无评论~