R语言实现随机森林的方法示例

来自：网络

时间：2021-11-06

阅读：

随机森林算法介绍
算法介绍：
决策树生长步骤：投票过程：
基本思想：随机森林的优点：缺点 R语言实现
随机森林模型搭建 1:randomForest()函数用于构建随机森林模型 2:importance()函数用于计算模型变量的重要性 3:MDSplot()函数用于实现随机森林的可视化 4:rfImpute()函数可为存在缺失值的数据集进行插补（随机森林法），得到最优的样本拟合值 5:treesize()函数用于计算随机森林中每棵树的节点个数

随机森林算法介绍

算法介绍：

简单的说，随机森林就是用随机的方式建立一个森林，森林里面有很多的决策树，并且每棵树之间是没有关联的。得到一个森林后，当有一个新的样本输入，森林中的每一棵决策树会分别进行一下判断，进行类别归类（针对分类算法），最后比较一下被判定哪一类最多，就预测该样本为哪一类。
随机森林算法有两个主要环节：决策树的生长和投票过程。

决策树生长步骤：

从容量为N的原始训练样本数据中采取放回抽样方式(即bootstrap取样)随机抽取自助样本集，重复k（树的数目为k）次形成一个新的训练集N，以此生成一棵分类树；每个自助样本集生长为单棵分类树，该自助样本集是单棵分类树的全部训练数据。设有M个输入特征，则在树的每个节点处从M个特征中随机挑选m(m < M)个特征，按照节点不纯度最小的原则从这m个特征中选出一个特征进行分枝生长，然后再分别递归调用上述过程构造各个分枝，直到这棵树能准确地分类训练集或所有属性都已被使用过。在整个森林的生长过程中m将保持恒定；分类树为了达到低偏差和高差异而要充分生长，使每个节点的不纯度达到最小，不进行通常的剪枝操作。

投票过程：

随机森林采用Bagging方法生成多个决策树分类器。

基本思想：

给定一个弱学习算法和一个训练集，单个弱学习算法准确率不高，可以视为一个窄领域专家；将该学习算法使用多次，得出预测函数序列，进行投票，将多个窄领域专家评估结果汇总，最后结果准确率将大幅提升。

随机森林的优点：

可以处理大量的输入变量; 对于很多种资料，可以产生高准确度的分类器; 可以在决定类别时，评估变量的重要性; 在建造森林时，可以在内部对于一般化后的误差产生不偏差的估计; 包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度; 提供一个实验方法，可以去侦测 variable interactions; 对于不平衡的分类资料集来说，可以平衡误差; 计算各例中的亲近度，对于数据挖掘、侦测偏离者（outlier）和将资料视觉化非常有用; 使用上述。可被延伸应用在未标记的资料上，这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料; 学习过程很快速。

缺点

随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合; 对于有不同级别的属性的数据，级别划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。

R语言实现

寻找最优参数mtry，即指定节点中用于二叉树的最佳变量个数

library("randomForest")
n<-length(names(train_data))     #计算数据集中自变量个数，等同n=ncol(train_data)
rate=1     #设置模型误判率向量初始值

for(i in 1:(n-1)){
  set.seed(1234)
  rf_train<-randomForest(as.factor(train_data$IS_LIUSHI)~.,data=train_data,mtry=i,ntree=1000)
  rate[i]<-mean(rf_train$err.rate)   #计算基于OOB数据的模型误判率均值
  print(rf_train)    
}

rate     #展示所有模型误判率的均值
plot(rate)

寻找最佳参数ntree，即指定随机森林所包含的最佳决策树数目

set.seed(100)
rf_train<-randomForest(as.factor(train_data$IS_LIUSHI)~.,data=train_data,mtry=12,ntree=1000)
plot(rf_train)    #绘制模型误差与决策树数量关系图  
legend(800,0.02,"IS_LIUSHI=0",cex=0.9,bty="n")    
legend(800,0.0245,"total",cex=0.09,bty="n")

随机森林模型搭建

set.seed(100)
rf_train<-randomForest(as.factor(train_data$IS_LIUSHI)~.,data=train_data,mtry=12,ntree=400,importance=TRUE,proximity=TRUE)

importance设定是否输出因变量在模型中的重要性，如果移除某个变量，模型方差增加的比例是它判断变量重要性的标准之一； proximity参数用于设定是否计算模型的临近矩阵； ntree用于设定随机森林的树数。

输出变量重要性:分别从精确度递减和均方误差递减的角度来衡量重要程度。

importance<-importance(rf_train) 
write.csv(importance,file="E:/模型搭建/importance.csv",row.names=T,quote=F)
barplot(rf_train$importance[,1],main="输入变量重要性测度指标柱形图")
box()

提取随机森林模型中以准确率递减方法得到维度重要性值。type=2为基尼系数方法

importance(rf_train,type=1)
 
varImpPlot(x=rf_train,sort=TRUE,n.var=nrow(rf_train$importance),main="输入变量重要性测度散点图")

信息展示

print(rf_train)    #展示随机森林模型简要信息
hist(treesize(rf_train))   #展示随机森林模型中每棵决策树的节点数
max(treesize(rf_train));min(treesize(rf_train))
MDSplot(rf_train,train_data$IS_OFF_USER,palette=rep(1,2),pch=as.numeric(train_data$IS_LIUSHI))    #展示数据集在二维情况下各类别的具体分布情况

检测

pred<-predict(rf_train,newdata=test_data)  
pred_out_1<-predict(object=rf_train,newdata=test_data,type="prob")  #输出概率
table <- table(pred,test_data$IS_LIUSHI)  
sum(diag(table))/sum(table)  #预测准确率
plot(margin(rf_train,test_data$IS_LIUSHI),main=观测值被判断正确的概率图)

randomForest包可以实现随机森林算法的应用，主要涉及5个重要函数，语法和参数请见下

1:randomForest()函数用于构建随机森林模型

randomForest(formula, data=NULL, ..., subset, na.action=na.fail)
randomForest(x, y=NULL, xtest=NULL, ytest=NULL, ntree=500,
             mtry=if (!is.null(y) && !is.factor(y))
               max(floor(ncol(x)/3), 1) else floor(sqrt(ncol(x))),
             replace=TRUE, classwt=NULL, cutoff, strata,
             sampsize = if (replace) nrow(x) else ceiling(.632*nrow(x)),
             nodesize = if (!is.null(y) && !is.factor(y)) 5 else 1,
             maxnodes = NULL,
             importance=FALSE, localImp=FALSE, nPerm=1,
             proximity, oob.prox=proximity,
             norm.votes=TRUE, do.trace=FALSE,
             keep.forest=!is.null(y) && is.null(xtest), corr.bias=FALSE,
             keep.inbag=FALSE, ...)

formula指定模型的公式形式，类似于y~x1+x2+x3…; data指定分析的数据集； subset以向量的形式确定样本数据集； na.action指定数据集中缺失值的处理方法，默认为na.fail，即不允许出现缺失值，也可以指定为na.omit，即删除缺失样本； x指定模型的解释变量，可以是矩阵，也可以是数据框； y指定模型的因变量，可以是离散的因子，也可以是连续的数值，分别对应于随机森林的分类模型和预测模型。这里需要说明的是，如果不指定y值，则随机森林将是一个无监督的模型； xtest和ytest用于预测的测试集； ntree指定随机森林所包含的决策树数目，默认为500； mtry指定节点中用于二叉树的变量个数，默认情况下数据集变量个数的二次方根（分类模型）或三分之一（预测模型）。一般是需要进行人为的逐次挑选，确定最佳的m值； replace指定Bootstrap随机抽样的方式，默认为有放回的抽样 classwt指定分类水平的权重，对于回归模型，该参数无效； strata为因子向量，用于分层抽样； sampsize用于指定样本容量，一般与参数strata联合使用，指定分层抽样中层的样本量； nodesize指定决策树节点的最小个数，默认情况下，判别模型为1，回归模型为5； maxnodes指定决策树节点的最大个数； importance逻辑参数，是否计算各个变量在模型中的重要性，默认不计算，该参数主要结合importance()函数使用； proximity逻辑参数，是否计算模型的临近矩阵，主要结合MDSplot()函数使用； oob.prox是否基于OOB数据计算临近矩阵； norm.votes显示投票格式，默认以百分比的形式展示投票结果，也可以采用绝对数的形式； do.trace是否输出更详细的随机森林模型运行过程，默认不输出； keep.forest是否保留模型的输出对象，对于给定xtest值后，默认将不保留算法的运算结果。

2:importance()函数用于计算模型变量的重要性

importance(x, type=NULL, class="NULL", scale=TRUE, ...)

x为randomForest对象； type可以是1，也可以是2，用于判别计算变量重要性的方法，1表示使用精度平均较少值作为度量标准；2表示采用节点不纯度的平均减少值最为度量标准。值越大说明变量的重要性越强； scale默认对变量的重要性值进行标准化。

3:MDSplot()函数用于实现随机森林的可视化

MDSplot(rf, fac, k=2, palette=NULL, pch=20, ...)

rf为randomForest对象，需要说明的是，在构建随机森林模型时必须指定计算临近矩阵，即设置proximity参数为TRUE； fac指定随机森林模型中所使用到的因子向量（因变量）； palette指定所绘图形中各个类别的颜色； pch指定所绘图形中各个类别形状；还可以通过R自带的plot函数绘制随机森林决策树的数目与模型误差的折线图

4:rfImpute()函数可为存在缺失值的数据集进行插补（随机森林法），得到最优的样本拟合值

rfImpute(x, y, iter=5, ntree=300, ...)
rfImpute(x, data, ..., subset)

x为存在缺失值的数据集； y为因变量，不可以存在缺失情况； iter指定插值过程中迭代次数； ntree指定每次迭代生成的随机森林中决策树数量； subset以向量的形式指定样本集。

5:treesize()函数用于计算随机森林中每棵树的节点个数

treesize(x, terminal=TRUE)

x为randomForest对象； terminal指定计算节点数目的方式，默认只计算每棵树的根节点，设置为FALSE时将计算所有节点（根节点+叶节点）。一般treesize()函数生成的结果用于绘制直方图，方面查看随机森林中树的节点分布情况。

&emsp;&emsp;本文介绍基于R语言中的geodetector包，依据多张栅格图像数据，实现地理探测器（Geodetector）操作的详细方法。&emsp;&emsp;需要说明的是，在R语言中进行地理探测器操作，可

2024-03-18 17:41:25

&emsp;&emsp;本文介绍基于R语言中的raster包，读取单张或批量读取多张栅格图像，并对栅格图像数据加以基本处理的方法。1 包的安装与导入&emsp;&emsp;首先，我们需要配置好对应的R

2024-03-15 20:58:53

目录Step1. 绘图数据的准备Step3. 绘图所需package的安装、调用Step4. 绘图改变size的大小调整顺序又是一年春来到，小仙祝大家在新的一年开开心心、顺顺利利！
今天给大家分享

2023-05-18 00:29:17

目录什么是EBImage1. 图像读取与保存2.色彩管理3.图像处理4.空间变换5.形态运算6.图像分割本文摘自《Keras深度学习：入门、实战及进阶》第四章部分章节。什么是EBImageEBImag

2023-05-18 00:28:50

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图小提琴图之前已经画过了，不过最近小仙又看到一种貌美的画法，决定复刻一下。

2023-05-18 00:28:44

目录第一种实现方法：用aggregate计算数据第二种实现方法：用dplyr包计算数据笔者近期画了一张带error bar的分组条形图，将相关的代码分享一下。感谢网友青山屋主的建议，提示笔者

2023-05-18 00:28:35

目录1.列表1.1创建1.2 访问 1.3 注意2.数据框2.1 创建2.2 访问1.列表列表“list”是一种比较的特别的对象集合，不同的序号对于不同的元素，当然元素的也可以是不同类

2023-05-18 00:28:13

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.绘图调整3D点的大小调整透明度注意事项它来了它来了，它顺着网线走来了…
哈哈，今天

2023-05-18 00:28:12

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图调整透明度更改顺序更改线条形状今天给大家介绍一下Ridgeline plot（山脊图）

2023-05-18 00:28:09

上一次小仙同学分享了 facet violin plot的画法，最后还卖了个关子，给大家留了个悬念。科研文章的插图通常要求比较高，不仅要精准地展示出数据，选对图表类型，还需要简洁优美（?翻译

2023-05-18 00:28:07

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.绘图环形柱状图排好序的环形柱状图调整颜色注意事项不知不觉，距离小仙上次发文已经过去

2023-05-18 00:27:29

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图今天小仙给大家分享一下Slope chart(坡度图)的画法，我在paper中看到的图是

2023-05-18 00:27:22

目录Step 1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4. 饼图百分比标签准备Step5.绘图今天要给大家介绍的Pie chart（饼图），本来是不打算写这个的

2023-05-18 00:27:16

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图添加平均值添加误差线今天要给大家介绍的是点图（Dot plot)，点图展示的数据比较

2023-05-18 00:26:54

目录引言安装例子高级特性引言patchwork是基于ggplot2的拼图包，因为ggplot2本身没有强大的拼图语法，而一般使用的gridExtra与cowplot的拼ggplot2图形都存在不少问题。我关注这

2023-05-18 00:26:46

条形统计图是用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条.带误差的条形图可以通过误差线来判断显著性。继续使用我们的汽车销售数据（公众号回复：汽车销售

2023-05-18 00:26:32

目录1.读取数据2.AUC和CI的计算3.利用ggplot2绘图4.合并多个ROC曲线结果pROC是一个专门用来计算和绘制ROC曲线的R包，目前已被CRAN收录，因此安装也非常简单，同时该包也兼容ggplo

2023-05-18 00:26:26

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4. 绘图Step5.美化老铁们，许久未见啦。顺便说一下，最近可不是小仙同学偷懒哟，电脑上个

2023-05-18 00:26:23

目录1.正整数下标2.负整数下标3.空下标与零下标4.下标超界5.逻辑下标6. which()、which.min()、which.max() 函数7. 元素名8.用 R 向量下标作映射9.集合运算练习 1.正整数下

2023-05-18 00:26:18

时光飞逝，岁月如梭，转眼又是一年过去了，本小仙怎么还是一事无成呢！转念一想，这种事也不是一次两次了，再多一个又何妨，哈哈！回归正题，今天就给大家介绍下直方图（histogram）的“好兄

2023-05-18 00:26:11

目录火山图输入数据格式使用significant列绘制火山图自动计算significant列绘制火山图火山图中标记基因的名字火山图火山图用于展示基因表达差异的分布，横轴为Log2 Fold Chan

2023-05-18 00:26:06

R刚入门的时候，能够正确读取单个文件就觉得小有成就，随着时间的积累，单一文件地读取已经不能满足需求了，此时，批量地做就是解放双手地过程。使用for循环把下载地TCGA数据读入R语

2023-05-18 00:26:01

目录前言一、R包及数据二、upset()函数1）基本参数2）queries参数3）attribute.plots参数3.1 添加柱形图和散点图3.2 添加箱线图3.3 添加密度曲线图前言介绍一个R包UpSetR，专门用来

2023-05-18 00:25:57

目录引言绘图示例1、下载安装ggtreeExtra包2、加载依赖包3、设置工作目录4、数据来源5、获取数据6、绘制树状图7、获取数据集绘制图a、绘制点图层b、绘制热图层c、绘制热图

2023-05-18 00:25:52

前言h5只是一种简单的数据组织格式【层级数据存储格式(HierarchicalDataFormat：HDF)】，该格式被设计用以存储和组织大量数据。在一些单细胞文献中，作者通常会将分析的数据上传

2023-05-18 00:25:45

目录更新前原文作图方法：Step1.绘图数据的准备Step2.绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图数据格式调整Step5.绘图填充透明度调整方法如下：1.取消编组2

2023-05-18 00:25:43

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.因子水平排序Step5.绘图今天给大家分享的是Lollipop chart(棒棒糖图)的画法。棒棒糖图

2023-05-18 00:25:19

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图Step5.美化又是一个好久不见，朋友们你们最近还好吗！最近小仙同学刚经历了人生

2023-05-18 00:25:14

目录前言效果展示小结参考附录：RVirusBroadcast代码前言前几天微博的一个热搜主题是**“计算机仿真程序告诉你为什么现在还没到出门的时候！！！”**，该视频用模拟的疫情

2023-05-18 00:25:10

目录1. W检验（Shapiro–Wilk (夏皮罗–威克尔 ) W统计量检验)2. K检验(经验分布的Kolmogorov-Smirnov检验)3. 相关性检验：4. T检验5. 正态总体方差检验6. 二项分布

2023-05-18 00:24:45

2021-03-11

2021-11-06

2021-03-12

2021-03-16