R语言利用loess如何去除某个变量对数据的影响详解

来自：网络

时间：2021-08-11

阅读：

R语言介绍

R语言是用于统计分析，图形表示和报告的编程语言和软件环境。 R语言由Ross Ihaka和Robert Gentleman在新西兰奥克兰大学创建，目前由R语言开发核心团队开发。

R语言的核心是解释计算机语言，其允许分支和循环以及使用函数的模块化编程。 R语言允许与以C，C ++，.Net，Python或FORTRAN语言编写的过程集成以提高效率。

R语言在GNU通用公共许可证下免费提供，并为各种操作系统（如Linux，Windows和Mac）提供预编译的二进制版本。
R是一个在GNU风格的副本左侧的自由软件，GNU项目的官方部分叫做GNU S.

R的演变

R语言最初是由新西兰奥克兰奥克兰大学统计系的Ross Ihaka和Robert Gentleman写的。 R语言于1993年首次亮相。
一大群人通过发送代码和错误报告对R做出了贡献。

自1997年年中以来，已经有一个核心组（“R核心团队”）可以修改R源代码归档。

R的特点

如前所述，R语言是用于统计分析，图形表示和报告的编程语言和软件环境。以下是R语言的重要特点：

R语言是一种开发良好，简单有效的编程语言，包括条件，循环，用户定义的递归函数以及输入和输出设施。 R语言具有有效的数据处理和存储设施， R语言提供了一套用于数组，列表，向量和矩阵计算的运算符。 R语言为数据分析提供了大型，一致和集成的工具集合。 R语言提供直接在计算机上或在纸张上打印的图形设施用于数据分析和显示。

作为结论，R语言是世界上最广泛使用的统计编程语言。它是数据科学家的第一选择，并由一个充满活力和有才华的贡献者社区支持。 R语言在大学教授并部署在关键业务应用程序中。本教程将教您R编程与适当的例子在简单和容易的步骤。

前言

当我们想研究不同sample的某个变量A之间的差异时，往往会因为其它一些变量B对该变量的固有影响，而影响不同sample变量A的比较，这个时候需要对sample变量A进行标准化之后才能进行比较。标准化的方法是对sample 的 A变量和B变量进行loess回归，拟合变量A关于变量B的函数 f(b)，f(b)则表示在B的影响下A的理论取值，A-f(B)（A对f(b）残差）就可以去掉B变量对A变量的影响,此时残差值就可以作为标准化的A值在不同sample之间进行比较。

Loess局部加权多项式回归

LOWESS最初由Cleveland 提出,后又被Cleveland&Devlin及其他许多人发展。在R中loess 函数是以lowess函数为基础的更复杂功能更强大的函数。主要思想为:在数据集合的每一点用低维多项式拟合数据点的一个子集,并估计该点附近自变量数据点所对应的因变量值,该多项式是用加权最小二乘法来拟合;离该点越远,权重越小,该点的回归函数值就是这个局部多项式来得到,而用于加权最小二乘回归的数据子集是由最近邻方法确定。

最大优点:不需要事先设定一个函数来对所有数据拟合一个模型。并且可以对同一数据进行多次不同的拟合，先对某个变量进行拟合，再对另一变量进行拟合，以探索数据中可能存在的某种关系，这是普通的回归拟合无法做到的。

LOESS平滑方法

1. 以x0为中心确定一个区间，区间的宽度可以灵活掌握。具体来说，区间的宽度取决于q=fn。其中q是参与局部回归观察值的个数，f是参加局部回归观察值的个数占观察值个数的比例,n是观察值的个数。在实际应用中，往往先选定f值，再根据f和n确定q的取值，一般情况下f的取值在1/3到2/3之间。q与f的取值一般没有确定的准则。增大q值或f值，会导致平滑值平滑程度增加，对于数据中前在的细微变化模式则分辨率低，但噪声小，而对数据中大的变化模式的表现则比较好；小的q值或f值，曲线粗糙，分辨率高，但噪声大。没有一个标准的f值，比较明智的做法是不断的调试比较。

2. 定义区间内所有点的权数，权数由权数函数来确定，比如立方加权函数weight = (1 - (dist/maxdist)^3)^3),dist为距离x的距离，maxdist为区间内距离x的最大距离。任一点(x0,y0)的权数是权数函数曲线的高度。权数函数应包括以下三个方面特性：(1)加权函数上的点(x0,y0)具有最大权数。(2)当x离开x0(时，权数逐渐减少。(3)加权函数以x0为中心对称。

3. 对区间内的散点拟合一条曲线y=f(x)。拟合的直线反映直线关系，接近x0的点在直线的拟合中起到主要的作用，区间外的点它们的权数为零。

4. x0的平滑点就是x0在拟合出来的直线上的拟合点(y0,f( x0))。

5. 对所有的点求出平滑点，将平滑点连接就得到Loess回归曲线。

R语言代码

 loess(formula, data, weights, subset, na.action, model = FALSE,
  span = 0.75, enp.target, degree = 2,
  parametric = FALSE, drop.square = FALSE, normalize = TRUE,
  family = c("gaussian", "symmetric"),
  method = c("loess", "model.frame"),
  control = loess.control(...), ...)

formula是公式，比如y~x,可以输入1到4个变量;

data是放着变量的数据框，如果data为空，则在环境中寻找;

na.action指定对NA数据的处理，默认是getOption("na.action");

model是否返回模型框；

span是alpha参数，可以控制平滑度,相当于上面所述的f，对于alpha小于1的时候，区间包含alpha的点，加权函数为立方加权，大于1时，使用所有的点，最大距离为alpha^(1/p)，p 为解释变量;

anp.target，定义span的备选方法；

normalize，对多变量normalize到同一scale；

family，如果是gaussian则使用最小二乘法，如果是symmetric则使用双权函数进行再下降的M估计；

method，是适应模型或者仅仅提取模型框架；

control进一步更高级的控制，使用loess.control的参数；

其它参数请自己参见manual并且查找资料

loess.control(surface = c("interpolate", "direct"),
   statistics = c("approximate", "exact"),
   trace.hat = c("exact", "approximate"),
   cell = 0.2, iterations = 4, ...)

surface，拟合表面是从kd数进行插值还是进行精确计算；

statistics,统计数据是精确计算还是近似，精确计算很慢

trace.hat,要跟踪的平滑的矩阵精确计算或近似？建议使用超过1000个数据点逼近，

cell,如果通过kd树最大的点进行插值的近似。大于cell floor(nspancell)的点被细分。

robust fitting使用的迭代次数。

predict(object, newdata = NULL, se = FALSE,
 na.action = na.pass, ...)

object，使用loess拟合出来的对象；

newdata,可选数据框，在里面寻找变量并进行预测；

se,是否计算标准误差；

对NA值的处理

实例

生物数据分析中，我们想查看PCR扩增出来的扩增子的测序深度之间的差异，但不同的扩增子的扩增效率受到GC含量的影响，因此我们首先应该排除掉GC含量对扩增子深度的影响。

数据

amplicon 测序数据，处理后得到的每个amplicon的深度，每个amplicon的GC含量，每个amplicon的长度

先用loess进行曲线的拟合

gcCount.loess <- loess(log(RC+0.01)~GC,data=RC_DT,control = loess.control(surface = "direct"),degree=2)

画出拟合出来的曲线

predictions1<- predict (gcCount.loess,RC_DT$GC)
#plot scatter and line 
plot(RC_DT$GC,log(RC_DT$RC+0.01),cex=0.1,xlab="GC Content",ylab=expression(paste("log(NRC"["lib"],"+0.01)",sep="")))
lines(RC_DT$GC,predictions1,col = "red")

取残差，去除GC含量对深度的影响

#sustract the influence of GC
resi <- log(RC_DT$RC+0.01)-predictions1
RC_DT$RC <- resi
setkey(RC_DT,GC)

此时RC_DT$RC就是normalize之后的RC

画图显示nomalize之后的RC,并将拟合的loess曲线和normalize之后的数据保存

#plot scatter and line using Norm GC data
plot(RC_DT$GC,RC_DT$RC,cex=0.1,xlab="GC Content",ylab=expression("NRC"["GC"]))
gcCount.loess <- loess(RC~GC,data=RC_DT,control = loess.control(surface = "direct"),degree=2)
save(gcCount.loess,file="/home/ywliao/project/Gengyan/gcCount.loess.Robject")
predictions2 <- predict(gcCount.loess,RC_DT$GC)
lines(RC_DT$GC,predictions2,col="red")
save(RC_DT,file="/home/ywliao/project/Gengyan/RC_DT.Rdata")

当然，也想看一下amplicon 长度len 对RC的影响，不过影响不大

全部代码如下(经过修改，可能与上面完全匹配)：

library(data.table)

load("/home/ywliao/project/Gengyan/RC_DT.Rdata")
RRC_DT <- RC_DT[Type=="WBC" & !is.na(RC),]

lst <- list()
for (Samp in unique(RC_DT$Sample)){
RC_DT <- RRC_DT[Sample==Samp]
####loess GC vs RC####
gcCount.loess <- loess(log(RC+0.01)~GC,data=RC_DT,control = loess.control(surface = "direct"),degree=2)
predictions1<- predict (gcCount.loess,RC_DT$GC)
#plot scatter and line 
#plot(RC_DT$GC,log(RC_DT$RC+0.01),cex=0.1,xlab="GC Content",ylab=expression(paste("log(NRC"["lib"],"+0.01)",sep="")))
#lines(RC_DT$GC,predictions1,col = "red")
#sustract the influence of GC
resi <- log(RC_DT$RC+0.01)-predictions1
RC_DT$NRC <- resi
setkey(RC_DT,GC)
#plot scatter and line using Norm GC data
#plot(RC_DT$GC,RC_DT$NRC,cex=0.1,xlab="GC Content",ylab=expression("NRC"["GC"]))
gcCount.loess <- loess(NRC~GC,data=RC_DT,control = loess.control(surface = "direct"),degree=2)
predictions2 <- predict(gcCount.loess,RC_DT$GC)
#lines(RC_DT$GC,predictions2,col="red")
lst[[Samp]] <- RC_DT
}
NRC_DT <- rbindlist(lst)
save(RC_DT,file="/home/ywliao/project/Gengyan/NRC_DT.Rdata")

####loess len vs RC###
setkey(RC_DT,Len)
len.loess <- loess(RC_DT$NRC~RC_DT$Len, control = loess.control(surface = "direct"),degree=2)
predictions2<- predict (len.loess,RC_DT$Len)
#plot scatter and line 
plot(RC_DT$Len,RC_DT$NRC,cex=0.1,xlab="Length",ylab=expression(paste("log(RC"["GC"],"+0.01)",sep="")))
lines(RC_DT$Len,predictions2,col = "red")

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对的支持。

&emsp;&emsp;本文介绍基于R语言中的geodetector包，依据多张栅格图像数据，实现地理探测器（Geodetector）操作的详细方法。&emsp;&emsp;需要说明的是，在R语言中进行地理探测器操作，可

2024-03-18 17:41:25

&emsp;&emsp;本文介绍基于R语言中的raster包，读取单张或批量读取多张栅格图像，并对栅格图像数据加以基本处理的方法。1 包的安装与导入&emsp;&emsp;首先，我们需要配置好对应的R

2024-03-15 20:58:53

目录Step1. 绘图数据的准备Step3. 绘图所需package的安装、调用Step4. 绘图改变size的大小调整顺序又是一年春来到，小仙祝大家在新的一年开开心心、顺顺利利！
今天给大家分享

2023-05-18 00:29:17

目录什么是EBImage1. 图像读取与保存2.色彩管理3.图像处理4.空间变换5.形态运算6.图像分割本文摘自《Keras深度学习：入门、实战及进阶》第四章部分章节。什么是EBImageEBImag

2023-05-18 00:28:50

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图小提琴图之前已经画过了，不过最近小仙又看到一种貌美的画法，决定复刻一下。

2023-05-18 00:28:44

目录第一种实现方法：用aggregate计算数据第二种实现方法：用dplyr包计算数据笔者近期画了一张带error bar的分组条形图，将相关的代码分享一下。感谢网友青山屋主的建议，提示笔者

2023-05-18 00:28:35

目录1.列表1.1创建1.2 访问 1.3 注意2.数据框2.1 创建2.2 访问1.列表列表“list”是一种比较的特别的对象集合，不同的序号对于不同的元素，当然元素的也可以是不同类

2023-05-18 00:28:13

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.绘图调整3D点的大小调整透明度注意事项它来了它来了，它顺着网线走来了…
哈哈，今天

2023-05-18 00:28:12

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图调整透明度更改顺序更改线条形状今天给大家介绍一下Ridgeline plot（山脊图）

2023-05-18 00:28:09

上一次小仙同学分享了 facet violin plot的画法，最后还卖了个关子，给大家留了个悬念。科研文章的插图通常要求比较高，不仅要精准地展示出数据，选对图表类型，还需要简洁优美（?翻译

2023-05-18 00:28:07

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.绘图环形柱状图排好序的环形柱状图调整颜色注意事项不知不觉，距离小仙上次发文已经过去

2023-05-18 00:27:29

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图今天小仙给大家分享一下Slope chart(坡度图)的画法，我在paper中看到的图是

2023-05-18 00:27:22

目录Step 1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4. 饼图百分比标签准备Step5.绘图今天要给大家介绍的Pie chart（饼图），本来是不打算写这个的

2023-05-18 00:27:16

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图添加平均值添加误差线今天要给大家介绍的是点图（Dot plot)，点图展示的数据比较

2023-05-18 00:26:54

目录引言安装例子高级特性引言patchwork是基于ggplot2的拼图包，因为ggplot2本身没有强大的拼图语法，而一般使用的gridExtra与cowplot的拼ggplot2图形都存在不少问题。我关注这

2023-05-18 00:26:46

条形统计图是用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条.带误差的条形图可以通过误差线来判断显著性。继续使用我们的汽车销售数据（公众号回复：汽车销售

2023-05-18 00:26:32

目录1.读取数据2.AUC和CI的计算3.利用ggplot2绘图4.合并多个ROC曲线结果pROC是一个专门用来计算和绘制ROC曲线的R包，目前已被CRAN收录，因此安装也非常简单，同时该包也兼容ggplo

2023-05-18 00:26:26

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4. 绘图Step5.美化老铁们，许久未见啦。顺便说一下，最近可不是小仙同学偷懒哟，电脑上个

2023-05-18 00:26:23

目录1.正整数下标2.负整数下标3.空下标与零下标4.下标超界5.逻辑下标6. which()、which.min()、which.max() 函数7. 元素名8.用 R 向量下标作映射9.集合运算练习 1.正整数下

2023-05-18 00:26:18

时光飞逝，岁月如梭，转眼又是一年过去了，本小仙怎么还是一事无成呢！转念一想，这种事也不是一次两次了，再多一个又何妨，哈哈！回归正题，今天就给大家介绍下直方图（histogram）的“好兄

2023-05-18 00:26:11

目录火山图输入数据格式使用significant列绘制火山图自动计算significant列绘制火山图火山图中标记基因的名字火山图火山图用于展示基因表达差异的分布，横轴为Log2 Fold Chan

2023-05-18 00:26:06

R刚入门的时候，能够正确读取单个文件就觉得小有成就，随着时间的积累，单一文件地读取已经不能满足需求了，此时，批量地做就是解放双手地过程。使用for循环把下载地TCGA数据读入R语

2023-05-18 00:26:01

目录前言一、R包及数据二、upset()函数1）基本参数2）queries参数3）attribute.plots参数3.1 添加柱形图和散点图3.2 添加箱线图3.3 添加密度曲线图前言介绍一个R包UpSetR，专门用来

2023-05-18 00:25:57

目录引言绘图示例1、下载安装ggtreeExtra包2、加载依赖包3、设置工作目录4、数据来源5、获取数据6、绘制树状图7、获取数据集绘制图a、绘制点图层b、绘制热图层c、绘制热图

2023-05-18 00:25:52

前言h5只是一种简单的数据组织格式【层级数据存储格式(HierarchicalDataFormat：HDF)】，该格式被设计用以存储和组织大量数据。在一些单细胞文献中，作者通常会将分析的数据上传

2023-05-18 00:25:45

目录更新前原文作图方法：Step1.绘图数据的准备Step2.绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图数据格式调整Step5.绘图填充透明度调整方法如下：1.取消编组2

2023-05-18 00:25:43

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.因子水平排序Step5.绘图今天给大家分享的是Lollipop chart(棒棒糖图)的画法。棒棒糖图

2023-05-18 00:25:19

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图Step5.美化又是一个好久不见，朋友们你们最近还好吗！最近小仙同学刚经历了人生

2023-05-18 00:25:14

目录前言效果展示小结参考附录：RVirusBroadcast代码前言前几天微博的一个热搜主题是**“计算机仿真程序告诉你为什么现在还没到出门的时候！！！”**，该视频用模拟的疫情

2023-05-18 00:25:10

目录1. W检验（Shapiro–Wilk (夏皮罗–威克尔 ) W统计量检验)2. K检验(经验分布的Kolmogorov-Smirnov检验)3. 相关性检验：4. T检验5. 正态总体方差检验6. 二项分布

2023-05-18 00:24:45

2021-03-11

2021-11-06

2021-03-12

2021-03-16

2021-03-11

2021-11-06

2021-03-15

R语言利用loess如何去除某个变量对数据的影响详解

地理探测器R语言实现：geodetector

基于R语言的raster包读取遥感影像

R语言绘制数据可视化Dumbbell plot哑铃图

详解R语言图像处理EBImage包

R语言绘制数据可视化小提琴图Violin plot with dot画法

R语言绘制带ErrorBar的分组条形图代码的分享

R语言列表和数据框的具体使用

使用R语言绘制3D数据可视化scatter散点图实现步骤

R语言绘图数据可视化Ridgeline plot山脊图画法

R语言绘图技巧导出高清图方法

R语言数据可视化绘制Circular bar plot实现环形柱状图

R语言数据可视化绘图Slope chart坡度图画法

R语言绘图数据可视化pie chart饼图

R语言数据可视化绘图Dot plot点图画法示例

R语言ggplot2拼图包patchwork安装使用

R语言绘制带误差线的条形图

R语言实现漂亮的ROC图效果

R语言绘制Facet violin plot小提琴刻面图实现示例

R语言向量下标和子集的使用

R语言数据可视化绘图bar chart条形图实现示例

R语言学习之火山图的绘制详解

R语言批量读取某路径下文件内容的方法

R语言UpSet包实现集合可视化示例详解

R包ggtreeExtra绘制进化树

R语言rhdf5读写hdf5并展示文件组织结构和索引数据

R语言绘制Radar chart雷达图

R语言数据可视化绘图Lollipop chart棒棒糖图

R语言绘制Bubble Matrix气泡矩阵图

R语言模拟疫情传播图RVirusBroadcast展示疫情数据

基于R语言数据检验详解

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道