Abhishek Sharma作者丁楠雅、龚力校对王菁 编辑陈超翻译

决策树VS随机森林——应该使用哪种算法?(附代码&链接)

本文以银行贷款数据为案例,对是否批准顾客贷款申请的决策过程进行了算法构建,并对比了决策树与随机森林两种机器学习算法之间的异同及各自的优劣。

用一个简单的比喻来解释决策树 vs 随机森林

让我们从一个思维实验来阐述决策树和随机森林之间的差异。

假设一个银行要给一位顾客批准一笔小额贷款,银行需要迅速做出决策。银行检查了这位顾客的信用记录和他的财政状况,并发现他还没有还上之前的贷款。因此,银行拒绝了他的申请。

但是,这笔贷款跟银行所拥有的巨额资金相比实在是小的可怜,银行本可以轻易地批准这笔贷款并且也不会承担很多风险。于是,银行失去了一次赚钱的机会。

现在,银行又来了一个贷款申请,但是这次银行想出了一种不同的策略——多重决策过程。有时它会先检查信用历史,有时它会先检查顾客的财政状况和贷款额度。然后,银行会把这些多重决策过程的结果进行整合,并最终决定是否将贷款发放给顾客。

即使这个过程比之前更费时,但是银行依然能够通过此途径获利。这是一个基于单一决策过程进行集合决策的经典案例。现在,我的问题来了——你知道这两个过程表征的是什么吗?

这里是决策树和随机森林,我们将详细探究这种观点,深入挖掘两种方法的主要差异,并且对关键问题进行回复——你应该选择那种机器学习算法?

目录
  • 决策树简介

  • 随机森林概览

  • 随机森林和决策树的冲突(代码)

  • 为什么随机森林优于决策树?

  • 决策树vs随机森林——你应该在何时选择何种算法?

决策树简介

决策树是一种有监督的机器学习算法,该方法可以用于解决分类和回归问题。决策树可以简单地理解为达到某一特定结果的一系列决策。这里是一幅决策树的阐述图(使用我们上面的案例):

让我们来理解这棵树是如何工作的。

首先,它检查了顾客是否有良好的信用历史。基于此,它将顾客分为两组,也就是良好信用组和不良信用组。然后,它检查了顾客的收入,并再次将顾客分为两类。最后,它检查了顾客申请的贷款额度。基于这三种特征的检测,决策树会决定是否通过顾客的贷款申请。

特征/属性和调节可能会随着数据和问题复杂度的改变而改变,但是整体的理念是一致的。所以,一棵决策树会基于一系列特征做出一系列的决策,在本例中是信用历史、收入和贷款额度。

现在,你可能会疑惑:

“为什么决策树会先检测信用得分而不是收入呢?”

特征重要性和特质的检测顺序是基于如基尼不纯度指数或信息增益等标准来决定的。这些概念的解释不在本文所探讨的范围内,但是你可以通过以下的资料来学习决策树相关知识:
  • 基于树的算法:从零开始的完整教程(R & Python)

https://www.analyticsvidhya.com/blog/2016/04/tree-based-algorithms-complete-tutorial-scratch-in-python/?utm_source=blog&utm_medium=decision-tree-vs-random-forest-algorithm

  • 从决策树开始(免费课程)

https://courses.analyticsvidhya.com/courses/getting-started-with-decision-trees?utm_source=blog&utm_medium=decision-tree-vs-random-forest-algorithm

注:本文的想法是比较决策树和随机森林。因此,我不会详细解释基本概念,但是我将提供相关链接以便于你可以进一步探究。

随机森林概览

决策树算法很容易理解和解释。但是通常来说,一棵简单的树并不能产生有效的结果。这就是随机森林算法的用武之地。

随机森林是基于树的机器学习算法,该算法利用了多棵决策树的力量来进行决策。顾名思义,它是由一片树木组成的“森林”!

但是为什么要称其为“随机森林”呢?这是因为它是随机创造的决策树组成的森林。决策树中的每一个节点是特征的一个随机子集,用于计算输出。随机森林将单个决策树的输出整合起来生成最后的输出结果。

简单来说:

随机森林算法用多棵(随机生成的)决策树来生成最后的输出结果。”

这种结合了多个单一模型的输出(也被称为弱学习)的过程被称为集成学习。如果你想阅读更多关于随机森林和其他集成学习算法如何工作,请查阅一下文章:
  • 从零开始构建一个随机森林&理解真实世界的数据产品

https://www.analyticsvidhya.com/blog/2018/12/building-a-random-forest-from-scratch-understanding-real-world-data-products-ml-for-programmers-part-3/?utm_source=blog&utm_medium=decision-tree-vs-random-forest-algorithm

  • 随机森林超参数调优——一个初学者的指南

https://www.analyticsvidhya.com/blog/2020/03/beginners-guide-random-forest-hyperparameter-tuning/?utm_source=blog&utm_medium=decision-tree-vs-random-forest-algorithm

  • 集成学习的综合指南(使用Python代码)

https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-for-ensemble-models/?utm_source=blog&utm_medium=decision-tree-vs-random-forest-algorithm

  • 如何在机器学习中建立集成模型?( R代码)

https://www.analyticsvidhya.com/blog/2017/02/introduction-to-ensembling-along-with-implementation-in-r/?utm_source=blog&utm_medium=decision-tree-vs-random-forest-algorithm

现在的问题是,我们怎样选择决策树和随机森林算法呢?让我们在做出结论之前,先看看过两种算法的具体情况。

随机森林和决策树的冲突(代码)

本部分,我们将使用Python实现决策树和随机森林算法来解决一道二分类问题。我们接下来将会比较它们的结果并看一看那种更适合解决我们的问题。
 
我们将基于Analytics Vidhya’s DataHack(https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/?utm_source=blog&utm_medium=decision-tree-vs-random-forest-algorithm)平台的贷款预测数据集进行分析。这是一个二分类问题,我们需要基于特定的特征集来决定一个人是否可被批准获得贷款。

注:你可以去DataHack(https://datahack.analyticsvidhya.com/contest/all/?utm_source=blog&utm_medium=decision-tree-vs-random-forest-algorithm )平台并在不同在线机器学习竞赛中与他人竞争,并且有机会获得令人兴奋的奖品。

准备好编程了吗?

第一步:加载库和数据集

让我们从导入所需的Python库和我们的数据集开始:

数据库包括614列和13个特征,包括信用历史(credit history),婚姻状况(marital status),贷款额度(loan amount),和性别(gender)。在这里,目标变量是是否贷款(Loan_Status),该变量表明是否一个人能够被批准获得贷款。

第二步:数据预处理

现在到了任何数据科学项目中最为关键的部分——数据预处理和特征工程。本部分中,我将处理数据中的类别变量以及缺失值插补。

我将使用特定的模式对类别变量中的缺失值进行插补,并且对连续型变量用平均值插补(每列分别插补)。我们也将对类别变量进行标签设置。你可以阅读以下文章来了解更多关于标签编码的内容。

https://www.analyticsvidhya.com/blog/2016/07/practical-guide-data-preprocessing-python-scikit-learn/?utm_source=blog&utm_medium=decision-tree-vs-random-forest-algorithm

# Data Preprocessing and null values imputation
# Label Encoding
df['Gender']=df['Gender'].map({'Male':1,'Female':0})
df['Married']=df['Married'].map({'Yes':1,'No':0})
df['Education']=df['Education'].map({'Graduate':1,'Not Graduate':0})
df['Dependents'].replace('3+',3,inplace=True)
df['Self_Employed']=df['Self_Employed'].map({'Yes':1,'No':0})
df['Property_Area']=df['Property_Area'].map({'Semiurban':1,'Urban':2,'Rural':3})
df['Loan_Status']=df['Loan_Status'].map({'Y':1,'N':0})
#Null Value Imputation
rev_null=['Gender','Married','Dependents','Self_Employed','Credit_History','LoanAmount','Loan_Amount_Term']
df[rev_null]=df[rev_null].replace({np.nan:df['Gender'].mode(),
                                   np.nan:df['Married'].mode(),
                                   np.nan:df['Dependents'].mode(),
                                   np.nan:df['Self_Employed'].mode(),
                                   np.nan:df['Credit_History'].mode(),
                                   np.nan:df['LoanAmount'].mean(),
                                   np.nan:df['Loan_Amount_Term'].mean()})rfc_vs_dt-2.py hosted with ❤ by GitHub

第三步:创造训练集和测试集

现在,让我们以80:20的比例进行训练集和测试集的划分:

X=df.drop(columns=['Loan_ID','Loan_Status']).values
Y=df['Loan_Status'].values
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, random_state = 42)rfc_vs_dt-3.py hosted with ❤ by GitHub

让我们一眼所划分的训练集和测试集:

print('Shape of X_train=>',X_train.shape)
print('Shape of X_test=>',X_test.shape)
print('Shape of Y_train=>',Y_train.shape)
print('Shape of Y_test=>',Y_test.shape)rfc_vs_dt-4.py hosted with ❤ by GitHub

真棒!现在我们已经准备好进入下一个阶段构建决策树和随机森林模型了!

第四步:构建和评估模型

既然我们已经有了训练和测试集,是时候训练模型和分类贷款申请了。首先,我们将在数据机上进行决策树的训练:
# Building Decision Tree
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(criterion = 'entropy', random_state = 42)
dt.fit(X_train, Y_train)
dt_pred_train = dt.predict(X_train)rfc_vs_dt-5.py hosted with ❤ by GitHub
接下来,我们将使用F1-Score对模型进行评估。F1-Score是由公式给出的精度和召回的调和平均数:

你可以通过以下文章来了解更多关于F1-Score和其他的评估方法:

https://www.analyticsvidhya.com/blog/2019/08/11-important-model-evaluation-error-metrics/?utm_source=blog&utm_medium=decision-tree-vs-random-forest-algorithm

让我们来评价F1-Score模型的表现:

# Evaluation on Training set
dt_pred_train = dt.predict(X_train)
print('Training Set Evaluation F1-Score=>',f1_score(Y_train,dt_pred_train))rfc_vs_dt-6.py hosted with ❤ by GitHub# Evaluating on Test set
dt_pred_test = dt.predict(X_test)
print('Testing Set Evaluation F1-Score=>',f1_score(Y_test,dt_pred_test))rfc_vs_dt-7.py hosted with ❤ by GitHub

在这里,你可以看到决策树在样本内估计的表现非常好,但是在样本外估计的表现迅速下降。为什么会出现这种情况呢?因为我们的决策树在训练集上产生了过拟合随机森林能否解决这一问题?

建立随机森林模型

让我们来看一下随机森林模型:

在这里,我们可以清楚地看到在样本外估计当中,随机森林模型比决策树的表现更优。让我们在接下来的一部分当中来讨论一下背后的原因。
 # Building  Random Forest Classifier
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier(criterion = 'entropy', random_state = 42)
rfc.fit(X_train, Y_train)# Evaluating on Training set
rfc_pred_train = rfc.predict(X_train)
print('Training Set Evaluation F1-Score=>',f1_score(Y_train,rfc_pred_train))rfc_vs_dt-8.py hosted with ❤ by GitHubf1 score random forest# Evaluating on Test set
rfc_pred_test = rfc.predict(X_test)
print('Testing Set Evaluation F1-Score=>',f1_score(Y_test,rfc_pred_test))rfc_vs_dt-9.py hosted with ❤ by GitHub

为什么我们的随机森林模型比决策树表现更好?

随机森林利用了多棵决策树的优势。它的确不依赖于单一决策树的特征重要性。让我们来看一看不同算法给予不同特征的特征重要性。
feature_importance=pd.DataFrame({
    'rfc':rfc.feature_importances_,
    'dt':dt.feature_importances_
},index=df.drop(columns=['Loan_ID','Loan_Status']).columns)
feature_importance.sort_values(by='rfc',ascending=True,inplace=True)index = np.arange(len(feature_importance))
fig, ax = plt.subplots(figsize=(18,8))
rfc_feature=ax.barh(index,feature_importance['rfc'],0.4,color='purple',label='Random Forest')
dt_feature=ax.barh(index+0.4,feature_importance['dt'],0.4,color='lightgreen',label='Decision Tree')
ax.set(yticks=index+0.4,yticklabels=feature_importance.index)ax.legend()
plt.show()rfc_vs_dt-10.py hosted with ❤ by GitHub

正如你在上图所见,决策树模型基于某一个特征集很高的重要性。但是随机森林算法在训练过程中随机选择特征。因此,的确不依赖于任何特定的特征集。这是随机森林算法优于bagging算法的一个特殊之处。你可以阅读以下文章获取更多bagging算法知识。

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html#sklearn.ensemble.BaggingClassifier 

因此,随机森林可以更好地在数据中心进行泛化。随机化特征选择可以使得随机森林比决策树更准确。

所以你应该选择哪一种算法呢——决策树还是随机森林

随机森林适用于拥有大型数据集的情况,并且可解释性不是主要考虑因素。”

决策树更容易解释和理解。因为随机森林整合了多棵决策树,更难以解释。但是好消息是——解释随机森林也并非不可能。这里有一篇文章讲了如何解释随机森林模型的结果:

https://www.analyticsvidhya.com/blog/2019/08/decoding-black-box-step-by-step-guide-interpretable-machine-learning-models-python/?utm_source=blog&utm_medium=decision-tree-vs-random-forest-algorithm

并且,随机森林比起单一决策树需要更长的训练时间。你应该把此纳入考虑,因为随着决策树数量的增加,所需要的训练时间也会越长。在你面临着紧张的机器学习项目安排过程中这可能通常是至关重要的。

但是我要说的是——尽管结果不稳定,且依赖于特定的特征集,决策树真的很有帮助,因为他们更容易去解释、训练更快。任何对数据科学缺乏知识的人都可以使用决策树进行快速的数据驱动决策。

写在最后的话

了解决策树和随机森林之争是非常有必要的。在你初入机器学习领域时,这可能是一个很棘手的问题,但是本文能够为你阐明两者之间的异同。

原文标题:

Decision Tree vs. Random Forest – Which Algorithm Should you Use?

原文链接:

https://www.analyticsvidhya.com/blog/2020/05/decision-tree-vs-random-forest-algorithm/

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

理论Python机器学习算法随机森林决策树
3
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

集成学习技术

集成学习是指使用多种兼容的学习算法/模型来执行单个任务的技术,目的是为了得到更佳的预测表现。集成学习的主要方法可归类为三大类: 堆叠(Stacking)、提升(Boosting) 和 装袋(Bagging/bootstrapaggregating)。其中最流行的方法包括随机森林、梯度提升、AdaBoost、梯度提升决策树(GBDT)和XGBoost。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

特征选择技术

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

信息增益技术

在决策树学习中,信息增益比是信息增益与固有信息的比率。 它被用来通过在选择属性时考虑分支的数量和大小来减少对多值属性的偏见.

暂无评论
暂无评论~