R语言数据预处理操作——离散化(分箱)

来自：网络

时间：2021-08-11

阅读：

一、项目环境

开发工具：RStudio

R：3.5.2

相关包：infotheo，discretization，smbinning，dplyr，sqldf

二、导入数据

# 这里我们使用的是鸢尾花数据集（iris）
data(iris)
head(iris)

	Sepal.Length	Sepal.Width	Petal.Length	Petal.Width	Species
1	5.1	3.5	1.4	0.2	setosa
2	4.9	3.0	1.4	0.2	setosa
3	4.7	3.2	1.3	0.2	setosa
4	4.6	3.1	1.5	0.2	setosa
5	5.0	3.6	1.4	0.2	setosa
6	5.4	3.9	1.7	0.4	setosa

三、数据划分

library(dplyr)
library(sqldf)
# 为数据集增加序号列（id）
iris$id <- c(1:nrow(iris))
# 将鸢尾花数据集中70%的数据划分为训练集
iris_train <- sample_frac(iris, 0.7, replace = TRUE)
# 使用sql语句将剩下的30%花费为测试集
iris_test <- sqldf("
    select *
    from iris
    where id not in (
    select id
    from iris_train
    )
    ")
# 去除序号列（id）
iris_train <- iris_train[,-6]
iris_test <- iris_test[,-6]

【注】：这里使用到sqldf包的函数sqldf函数来时间在R语言中使用SQL语句

四、无监督分箱

常见的几种无监督分箱方法

等宽分箱法

等频分箱法

kmeans分箱法

1、分箱前准备法

# 导入无监督分箱包——infotheo
library(infotheo)
# 分成几个区域
nbins <- 3

2、等宽分箱法

### 等宽分箱的原理非常简单，就是按照相同的间距将数据分成相应的等分
# 将连续型数据分成三份，并以1、2、3赋值
equal_width <- discretize(iris_train$Sepal.Width,"equalwidth",nbins)
### 查看分箱情况
# 查看各分类数量
table(equal_width)
# 用颜色表明是等宽分箱
plot(iris_train$Sepal.Width, col = equal_width$X)
### 保存每个等分切割点的值（阙值）
# 计算各个分类相应的切割点
width <- (max(iris_train$Sepal.Width)-min(iris_train$Sepal.Width))/nbins
# 保存阙值
depreciation <- width * c(1:nbins) + min(iris_train$Sepal.Width)

3、等频分箱

### 等频分箱是将数据均匀的分成相应的等分（数量不一定是完全相同的）
# 将连续型数据分成三份，并以1、2、3赋值
equal_freq <- discretize(iris_train$Sepal.Width,"equalfreq",nbins)
### 查看分箱情况
# 查看各分类数量
table(equal_width)
# 用颜色表明是等频分箱
plot(iris_train$Sepal.Width, col = equal_freq$X)
### 保存每个等分切割点的值（阙值）
data <- iris_train$Sepal.Width[order(iris_train$Sepal.Width)]
depreciation <- as.data.frame(table(equal_freq))$Freq

4、kmeans分箱法

# kmeans分箱法，先给定中心数，将观察点利用欧式距离计算与中心点的距离进行归类，再重新计算中心点，直到中心点# 不再发生变化，以归类的结果做为分箱的结果。
# 将连续型数据分成三份，并以1、2、3赋值
k_means <- kmeans(iris_train$Sepal.Width, nbins)
# 查看各分类数量
table(k_means$cluster)
# 查看实际分箱状况
k_means$cluster
# 保存阙值
# rev() 的作用是倒置数据框
# 统一从左往右，从大到小
depreciation <- rev(k_means$centers)

五、有监督分箱

discretization提供了几个主要的离散化的工具函数：

chiM，ChiM算法进行离散化

chi2, Chi2算法进行离散化

mdlp，最小描述长度原理(MDLP)进行离散化

modChi2，改进的Chi2方法离散数值属性

disc.Topdown，自上而下的离散化

extendChi2，扩展Chi2算法离散数值属性

smbinning提供的工具函数：

smbinning ，基于构造条件推断树ctree的监督式分箱

1、chiM算法进行离散化

### 有监督的数据离散化
library(discretization)# 有监督分箱
# 使用ChiMerge算法基于卡方检验进行自下而上的合并
chi1 <- chiM(iris_train, alpha = 0.05) # alpha 为显著性指标
apply(chi1$Disc.data,2,table)
# 保存阙值
depreciation <- chi1$cutp[[2]]
## 其他有监督分享算法
# chi2 <- chi2(iris,alp=0.5,del=0.05) # chi2()算法
# chi3 <- modChi2(iris,alp=0.5)  # modChi2()算法
# chi4 <- extendChi2(iris,alp = 0.5) # extendChi2()算法
# m1 <- mdlp(iris)     # 使用熵准则将最小描述长度作为停止规则来离散化
# d1 <- disc.Topdown(iris,method=1) # 该功能实现了三种自上而下的离散化算法（CAIM，CACC，Ameva）

2、基于构造条件推断树ctree的监督式分箱

# 分箱前数据准备
library(smbinning) 
# 查看测试用例
head(smbsimdf1)

fgood	cbs1	cbs2	cbinq	cbline	cbterm	cblineut	cbtob	cbdpd	cbnew	pmt	tob	dpd	dep	dc	od	home	inc	dd	online	rnd	period
1	60.11	NA	02	2	00	47.51361	5	No	No	M	2	00No	10481.40	20	01	No	W06	00	Yes	0.46641029	2018-03-31
1	45.62	66.72	02	2	02	52.36222	4	No	No	A	1	02Hi	10182.43	17	01	No	W10	00	Yes	0.91980286	2018-05-31
1	30.86	66.94	02	2	00	35.89640	5	No	Yes	M	2	02Hi	9645.37	23	00	No	W05	00	Yes	0.33804009	2018-07-31
1	62.38	49.12	02	3	01	41.93578	6	No	No	P	4	00No	13702.76	31	01	No		00	Yes	0.76475600	2017-12-31
1	54.36	41.22	00	1	00	44.23662	5	No	No	P	4	00No	18720.09	26	02	Yes	W08	01	Yes	0.58563795	2018-02-28
1	68.78	50.80	00	0	00	43.59248	7	Yes	Yes	A	4	01Lo	10217.07	31	00	No	W09	00	Yes	0.05756396	2018-03-31

【注】：这里之所以不适用鸢尾花数据集的原因在于，这个函数的使用条件较为苛刻。首先它不允许数据集的列名中含有 “.” ,比如鸢尾花数据集中的“Sepal.Width”就不可以。

其次它要求用于学习的列必须是二分类，且数据类型必须是numeric，二分类的值也必须是（0， 1）。也是因为这些原因，为了方便在这里使用包中自带的数据集。

# 使用smbinning函数进行分箱，df 为原始数据，y表示目标标签，x表示需要分箱的标签result <- smbinning(df = smbsimdf1,y = "fgood",x = "cbs1") 
# 查看分箱结果的分布情况，不良率和证据权重
par(mfrow=c(2,2))
boxplot(smbsimdf1$cbs1~smbsimdf1$fgood,horizontal=T, frame=F, col="lightgray",main="Distribution")
smbinning.plot(result,option="dist")
smbinning.plot(result,option="badrate")
smbinning.plot(result,option="WoE")

result$ivtable # 相关重要信息
result$ctree # 决策树
result$cuts # 阙值
smbinning.sql(result) # 输出相应的sql语句

# 使用训练好的函数对数据进行分箱（训练集和测试集都需要）
smbsimdf1 <- smbinning.gen(smbsimdf1, result, chrname = "gcbs1")
# 查看分箱情况
table(smbsimdf1$gcbs1)

【注】：除此之外也可以用smbinning.sql(result) 生成的sql语句，配合sqldf包进行数据分箱操作。

六、使用阙值对测试集进行分箱操作

上述方法中，除了最后一种方法，我们都没有将训练好的函数用于测试集。但是在实际的分析，我们让数据离散化最主要的目的更多的是为了降低机器学习的负担。

因此我们除了需要对训练集进行分箱操作之外，将同样的分箱方法作用与测试集。那么下面我们就将使用之前得到的阙值，对测试集进行分享操作。

### 对测试集进行分箱操作
# 使用之前保存的阙值
# 这里之所以要前后加上Inf，是为了让它的范围能够向正负无穷延伸
# (-Inf, a],[b, Inf)
break1<-c(-Inf,depreciation,Inf)
labels = c("差", "中", "良", "优")
# 第一个值是数据
# 第一个值是分箱的区间
# 第三个值是替换成的数
# ordered_result表示被替换成的数是否有前后顺序
iris_test$Sepal.Width <- cut(iris_test$Sepal.Width,break1,labels,ordered_result = T)
iris_test$Sepal.Width

七、结语

本文更多的是从实际操作的角度进行说明，之间涉及到的很多算法的原理没有进行过多的说明。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

&emsp;&emsp;本文介绍基于R语言中的geodetector包，依据多张栅格图像数据，实现地理探测器（Geodetector）操作的详细方法。&emsp;&emsp;需要说明的是，在R语言中进行地理探测器操作，可

2024-03-18 17:41:25

&emsp;&emsp;本文介绍基于R语言中的raster包，读取单张或批量读取多张栅格图像，并对栅格图像数据加以基本处理的方法。1 包的安装与导入&emsp;&emsp;首先，我们需要配置好对应的R

2024-03-15 20:58:53

目录Step1. 绘图数据的准备Step3. 绘图所需package的安装、调用Step4. 绘图改变size的大小调整顺序又是一年春来到，小仙祝大家在新的一年开开心心、顺顺利利！
今天给大家分享

2023-05-18 00:29:17

目录什么是EBImage1. 图像读取与保存2.色彩管理3.图像处理4.空间变换5.形态运算6.图像分割本文摘自《Keras深度学习：入门、实战及进阶》第四章部分章节。什么是EBImageEBImag

2023-05-18 00:28:50

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图小提琴图之前已经画过了，不过最近小仙又看到一种貌美的画法，决定复刻一下。

2023-05-18 00:28:44

目录第一种实现方法：用aggregate计算数据第二种实现方法：用dplyr包计算数据笔者近期画了一张带error bar的分组条形图，将相关的代码分享一下。感谢网友青山屋主的建议，提示笔者

2023-05-18 00:28:35

目录1.列表1.1创建1.2 访问 1.3 注意2.数据框2.1 创建2.2 访问1.列表列表“list”是一种比较的特别的对象集合，不同的序号对于不同的元素，当然元素的也可以是不同类

2023-05-18 00:28:13

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.绘图调整3D点的大小调整透明度注意事项它来了它来了，它顺着网线走来了…
哈哈，今天

2023-05-18 00:28:12

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图调整透明度更改顺序更改线条形状今天给大家介绍一下Ridgeline plot（山脊图）

2023-05-18 00:28:09

上一次小仙同学分享了 facet violin plot的画法，最后还卖了个关子，给大家留了个悬念。科研文章的插图通常要求比较高，不仅要精准地展示出数据，选对图表类型，还需要简洁优美（?翻译

2023-05-18 00:28:07

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.绘图环形柱状图排好序的环形柱状图调整颜色注意事项不知不觉，距离小仙上次发文已经过去

2023-05-18 00:27:29

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图今天小仙给大家分享一下Slope chart(坡度图)的画法，我在paper中看到的图是

2023-05-18 00:27:22

目录Step 1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4. 饼图百分比标签准备Step5.绘图今天要给大家介绍的Pie chart（饼图），本来是不打算写这个的

2023-05-18 00:27:16

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图添加平均值添加误差线今天要给大家介绍的是点图（Dot plot)，点图展示的数据比较

2023-05-18 00:26:54

目录引言安装例子高级特性引言patchwork是基于ggplot2的拼图包，因为ggplot2本身没有强大的拼图语法，而一般使用的gridExtra与cowplot的拼ggplot2图形都存在不少问题。我关注这

2023-05-18 00:26:46

条形统计图是用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条.带误差的条形图可以通过误差线来判断显著性。继续使用我们的汽车销售数据（公众号回复：汽车销售

2023-05-18 00:26:32

目录1.读取数据2.AUC和CI的计算3.利用ggplot2绘图4.合并多个ROC曲线结果pROC是一个专门用来计算和绘制ROC曲线的R包，目前已被CRAN收录，因此安装也非常简单，同时该包也兼容ggplo

2023-05-18 00:26:26

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4. 绘图Step5.美化老铁们，许久未见啦。顺便说一下，最近可不是小仙同学偷懒哟，电脑上个

2023-05-18 00:26:23

目录1.正整数下标2.负整数下标3.空下标与零下标4.下标超界5.逻辑下标6. which()、which.min()、which.max() 函数7. 元素名8.用 R 向量下标作映射9.集合运算练习 1.正整数下

2023-05-18 00:26:18

时光飞逝，岁月如梭，转眼又是一年过去了，本小仙怎么还是一事无成呢！转念一想，这种事也不是一次两次了，再多一个又何妨，哈哈！回归正题，今天就给大家介绍下直方图（histogram）的“好兄

2023-05-18 00:26:11

目录火山图输入数据格式使用significant列绘制火山图自动计算significant列绘制火山图火山图中标记基因的名字火山图火山图用于展示基因表达差异的分布，横轴为Log2 Fold Chan

2023-05-18 00:26:06

R刚入门的时候，能够正确读取单个文件就觉得小有成就，随着时间的积累，单一文件地读取已经不能满足需求了，此时，批量地做就是解放双手地过程。使用for循环把下载地TCGA数据读入R语

2023-05-18 00:26:01

目录前言一、R包及数据二、upset()函数1）基本参数2）queries参数3）attribute.plots参数3.1 添加柱形图和散点图3.2 添加箱线图3.3 添加密度曲线图前言介绍一个R包UpSetR，专门用来

2023-05-18 00:25:57

目录引言绘图示例1、下载安装ggtreeExtra包2、加载依赖包3、设置工作目录4、数据来源5、获取数据6、绘制树状图7、获取数据集绘制图a、绘制点图层b、绘制热图层c、绘制热图

2023-05-18 00:25:52

前言h5只是一种简单的数据组织格式【层级数据存储格式(HierarchicalDataFormat：HDF)】，该格式被设计用以存储和组织大量数据。在一些单细胞文献中，作者通常会将分析的数据上传

2023-05-18 00:25:45

目录更新前原文作图方法：Step1.绘图数据的准备Step2.绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图数据格式调整Step5.绘图填充透明度调整方法如下：1.取消编组2

2023-05-18 00:25:43

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.因子水平排序Step5.绘图今天给大家分享的是Lollipop chart(棒棒糖图)的画法。棒棒糖图

2023-05-18 00:25:19

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图Step5.美化又是一个好久不见，朋友们你们最近还好吗！最近小仙同学刚经历了人生

2023-05-18 00:25:14

目录前言效果展示小结参考附录：RVirusBroadcast代码前言前几天微博的一个热搜主题是**“计算机仿真程序告诉你为什么现在还没到出门的时候！！！”**，该视频用模拟的疫情

2023-05-18 00:25:10

目录1. W检验（Shapiro–Wilk (夏皮罗–威克尔 ) W统计量检验)2. K检验(经验分布的Kolmogorov-Smirnov检验)3. 相关性检验：4. T检验5. 正态总体方差检验6. 二项分布

2023-05-18 00:24:45

2021-03-11

2021-11-06

2021-03-12

2021-03-16

2021-03-11

2021-11-06

2021-03-15

R语言数据预处理操作——离散化(分箱)

一、项目环境

二、导入数据

三、 数据划分

四、 无监督分箱

1、 分箱前准备法

2、 等宽分箱法

3、 等频分箱

4、kmeans分箱法

五、 有监督分箱

1、chiM算法进行离散化

2、基于构造条件推断树ctree的监督式分箱

六、 使用阙值对测试集进行分箱操作 ​

七、 结语

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道