R语言基础统计方法图文实例讲解

时间：2021-11-06

阅读：

R语言基础统计方法图文实例讲解

tidyr

> tdata <- data.frame(names=rownames(tdata),tdata)行名作为第一列
> gather(tdata,key="Key",value="Value",cyl:disp,mpg)创key列和value列，cyl和disp放在一列中
-号减去不需要转换的列
> spread(gdata,key="Key",value="Value")
根据value将key打散开 与unite函数对立
separate(df,col=x,into=c("A","B"))将数据框的列分割
unite(x,col="AB",A,B,sep='.')

dplyr

> dplyr::filter(iris,Sepal.Length>7)条件过滤
> dplyr::distinct(rbind(iris[1:10,],iris[1:15,]))去除重复行
> dplyr::slice(iris,10:15)切片
> dplyr::sample_n(iris,10)随机10行
> dplyr::sample_frac(iris,0.1)按比例随机选取
> dplyr::arrange(iris,Sepal.Length)排序
dplyr::arrange(iris,desc(Sepal.Length))降序
> select(starwars,height)选取
> summarise(iris,avg=mean(Sepal.Length))

统计函数

%>%链式操作符，管道 ctrl+shift+m
> iris %>% group_by(Species)
> dplyr::group_by(iris,Species)
> iris %>% group_by(Species) %>% summarise(avg=mean(Sepal.Width)) %>% arrange(avg)
> dplyr::mutate(iris,new= Sepal.Length+Petal.Length)相加总和
> dplyr::left_join(a,b,by="x1")
> dplyr::right_join(a,b,by="x1")
> dplyr::full_join(a,b,by="x1")
> dplyr::semi_join(a,b,by="x1")交集部分
> dplyr::anti_join(a,b,by="x1")补集部分
> intersect(first,second)交集
> dplyr::union_all(first,second)并集
> dplyr::union(first,second)非冗余并集
> setdiff(first,second)补集

heatmap输入矩阵
lm输入数据框
plot向量和向量-散点图，向量和因子-条形图
cbind,rbind矩阵或数据框
sum,mean,sd,range,median,sort,order向量
main 字符串不能为向量
na.rm true和false
axis side参数1到4
fig 包含四个元素向量
> plot(c(1:20),c(seq(1,89,length.out=20)),type="l",lty=1)实线
> plot(c(1:20),c(seq(1,89,length.out=20)),type="l",lty=2)虚线

数学统计

> x <- rnorm(n=100,mean=15,sd=2)生成100个平均数为15方差为2的随机数
> qqnorm(x)
set.seed(666) runif(50)绑定随机数
dgama(c(1:9),shape=2,rate=1)生成密度gama分布；随机数

描述性统计

summary()
fivenum()
Hmisc describe()
pastecs stat.desc() basic=T norm=T
psych describe() trim=0.1去除最低最高10%
> aggregate(Cars93[c("Min.Price","Price","Max.Price"," MPG.city")],by=list(Manufacturer=Cars93$Manufacturer),mean)字符串型 返回一个统计函数
doBy > summaryBy(mpg+hp+wt~am,data=myvars,FUN = mean)
psych describe.by(myvars,list(am=mtcars$am))分组统计
describeBy(myvars,list(am=mtcars$am))详细信息

统计函数二元类元表

> table(cut(mtcars$mpg,c(seq(10,50,10))))频数统计
> prop.table(table(mtcars$cyl))频数占比
> table(Arthritis$Treatment,Arthritis$Improved)
> with(data=Arthritis,(table(Treatment,Improved)))省略数据集的名字
> xtabs(~Treatment+Improved,data=Arthritis)根据类别统计频数
> margin.table(x,1/2)总和
> addmargins(x)将总和添加到原表中
> ftable(y)评估式类元表

独立性检验

原假设：不变 备择假设：变化
P值越小越能实现
> mytable <- table(Arthritis$Treatment,Arthritis$Improved)
> chisq.test(mytable)卡方独立性检验
> fisher.test(mytable)精确独立检验
> mantelhaen.test(mytable)
> mytable <- xtabs(~Treatment+Sex+Improved,data=Arthritis)
> mantelhaen.test(mytable)

相关性检验

> cor(state.x77) > cor(x,y)
> cov(state.x77)
偏相关
ggm
> pcor(c(1,5,2,3,6),cov(state.x77))
> cor.test(state.x77[,3],state.x77[,5])
psych
> corr.test(state.x77)
> x <- pcor(c(1,5,2,3,6),cov(state.x77))
> pcor.test(x,3,50)
MASS
> t.test(Prob~So,data=UScrime)

绘图函数

散点图 x、y
直方图 因子
热力图 数据矩阵
象限图 因子、向量
> plot(women$height~women$weight)关联图
> fit <- lm(height~weight,data=women)
> plot(fit)
S3 par/plot/summary
> plot(as.factor(mtcars$cyl),col=c("red","yellow","blue"))

偏度是统计数据分布偏斜方向程度的度量，统计数据分布非对称程度数字特征、峰度是表征概率密度分布曲线在平均值处峰值高低的特征数

> mystats <- function(x,na.omit=FALSE){
+ if(na.omit)
+ x <- x[!is.na(x)]
+ m <- mean(x)
+ n <- length(x)
+ s <- sd(x)
+ skew <- sum((x-m^3/s^3))/n
+ kurt <- sum((x-m^4/s^4))/n-3
+ return(c(n=m,mean=m,stdev=s,skew=skew,kurtosis=kurt))
+ }

> i=1;while (i<=10){print("Hello,World");i=i+2;}
for(i in 1:10){print("Hello,World")}
> ifelse(score>60,print("PASS"),print("FAIL")

线性回归

> fit <- lm(weight~height,data=women)
> summary(fit)
> coefficients(fit)
> confint(fit,level=)置信区间，默认95%
> fitted(fit)拟合模型预测值
源数据-预测值=残差residuals()
> predict(fit,women1)根据结果对新数据进行预测
残差拟合图，正态分布图，大小位列图，残差影响图
plot(women$height,women$weight)
abline拟合曲线
> fit2 <- lm(weight~height+I(height^2),data=women)增加二次项
> lines(women$height,fitted(fit2),col="red")
将点连成线，根据拟合曲线
Pr(>|t|)估计系数为0假设的概率，小于0.05
Residual standard error残差越小越好
Multiple R-squared拟合值越大越好，解释数据量
F-statistic模型是否显著，越小越好

AIC比较回归值拟合度结果
MASS
stepAIC逐步回归法
leaps
regsubsets全子集回归法

> par(mfrow=c(2,2)) plot四幅图显示在同个画面
抽样验证法
500个数据进行回归分析，predict对剩下500个预测，比较残差值

单因素方差分析

> library(multcomp)
> attach(cholesterol)
> table(trt)
> aggregate(response,by=list(trt),FUN=mean) 分组统计平均值查看效果最好因子
> fit <- aov(response~ trt,data=cholesterol) 方差分析
> summary(fit) 看统计结果，方差结果看F值 越大组间差异越显著、P值衡量F值越小越可靠

协方差

> attach(litter)
> aggregate(weight,by=list(dose),FUN=mean)
> fit <- aov(weight~gesttime+dose,data=litter)
> summary(fit)

双因素方差分析

> attach(ToothGrowth)
> xtabs(~supp+dose)统计频率
> aggregate(len,by=list(supp,dose),FUN=mean)剂量越小两者差别越明显
> ToothGrowth$dose <- factor(ToothGrowth$dose)
> fit <- aov(len ~ supp*dose,data=ToothGrowth)
> summary(fit)

> interaction.plot(dose,supp,len,type="b",
col=c("red","blue"),pch=c(16,18),
main = "Interaction between Dose and Supplement Type")

多元方差分析

> library(MASS)
> attach(UScereal)
> shelf <- factor(shelf)
> aggregate(cbind(calories,fat,sugars),by=list(shelf),FUN=mean)
> summary.aov(fit)每组测量值不同，差异结果显著

功效分析

> pwr.f2.test(u=3,sig.level=0.05,power=0.9,f2=0.0769)假设显著性水平为0.05，在90%置信水平下至少需要184个样本
pwr.anova.test(k=2,f=0.25,sig.level=0.05,power=0.9) 2组效率为0.25显著性水平为0.05，功效水平为90，结果为86*2

> data(breslow.dat,package = "robust")
> summary(breslow.dat)
> attach(breslow.dat)
fit <- glm(sumY~Base + Trt +Age，data=breslow.dat,family=poisson(link="log")) 广义线性模型拟合泊松回归 响应变量

逻辑回归

> data(Affairs,package="AER")
> summary(Affairs)
> table(Affairs$affairs)
> prop.table(table(Affairs$affairs)）
> prop.table(table(Affairs$gender))
> Affairs$ynaffair[Affairs$affairs>0] <- 1
> Affairs$ynaffair[Affairs$affairs==0] <- 0
> Affairs$ynaffair <- factor(Affairs$ynaffair,levels=c(0,1),labels=c("No","Yes"))
> table(Affairs$ynaffair)
> attach(Affairs )
> fit <- glm(ynaffair~gender+age+yearsmarried+children+religiousness+education+occupation+rating,data=Affairs,family=binomial())
> summary(fit)
> fit1 <- glm(ynaffair~age+yearsmarried+religiousness+rating,data=Affairs,family=binomial())
> summary(fit1)
> anova(fit,fit1,test="Chisq")

主成分分析

> library(psych)
> fa.parallel(USJudgeRatings,fa="pc",n.iter=100)直线与X符号生成值大于一和100次模拟的平行分析
CPU
> pc <- principal(USJudgeRatings,nfactors=1,rotate="none",scores=FALSE)/scores=T pc1包含成分整合，观测变量与主成分的相关系数，h2指成分公因子的方差，主成分对每个变量的方差解释度，u2指方差无法被主成分解释的比例，SSloadings特定主成分相关联的标准化后的方差值，proportion var每个主成分对相关值的解释程度

因子分析

> library(psych)
> options(digits=2)
> covariances <- ability.cov$cov
> correlations <- cov2cor(covariances)
> fa.parallel(correlations,fa="both",n.obs=112,n.iter=100)
> fa.varimax <- fa(correlations,nfactors=2,rotate="varimax",fm="pa")
> fa.promax <- fa(correlations,nfactors=2,rotate="promax",fm="pa")
factor.plot(fa.promax,labels=rownames(fa.promax$loadings))
fa.diagram(fa.varimax,simple=FALSE)
fa<-fa(correlations,nfactors=2,rotate="none",fm="pa",score=TRUE)
fa$weight

library(arules)
data(Groceries)
> fit <- apriori(Groceries,parameter=list(support=0.01,confidence=0.5))
> inspect(fit)

&emsp;&emsp;本文介绍基于R语言中的geodetector包，依据多张栅格图像数据，实现地理探测器（Geodetector）操作的详细方法。&emsp;&emsp;需要说明的是，在R语言中进行地理探测器操作，可

2024-03-18 17:41:25

&emsp;&emsp;本文介绍基于R语言中的raster包，读取单张或批量读取多张栅格图像，并对栅格图像数据加以基本处理的方法。1 包的安装与导入&emsp;&emsp;首先，我们需要配置好对应的R

2024-03-15 20:58:53

目录Step1. 绘图数据的准备Step3. 绘图所需package的安装、调用Step4. 绘图改变size的大小调整顺序又是一年春来到，小仙祝大家在新的一年开开心心、顺顺利利！
今天给大家分享

2023-05-18 00:29:17

目录什么是EBImage1. 图像读取与保存2.色彩管理3.图像处理4.空间变换5.形态运算6.图像分割本文摘自《Keras深度学习：入门、实战及进阶》第四章部分章节。什么是EBImageEBImag

2023-05-18 00:28:50

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图小提琴图之前已经画过了，不过最近小仙又看到一种貌美的画法，决定复刻一下。

2023-05-18 00:28:44

目录第一种实现方法：用aggregate计算数据第二种实现方法：用dplyr包计算数据笔者近期画了一张带error bar的分组条形图，将相关的代码分享一下。感谢网友青山屋主的建议，提示笔者

2023-05-18 00:28:35

目录1.列表1.1创建1.2 访问 1.3 注意2.数据框2.1 创建2.2 访问1.列表列表“list”是一种比较的特别的对象集合，不同的序号对于不同的元素，当然元素的也可以是不同类

2023-05-18 00:28:13

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.绘图调整3D点的大小调整透明度注意事项它来了它来了，它顺着网线走来了…
哈哈，今天

2023-05-18 00:28:12

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图调整透明度更改顺序更改线条形状今天给大家介绍一下Ridgeline plot（山脊图）

2023-05-18 00:28:09

上一次小仙同学分享了 facet violin plot的画法，最后还卖了个关子，给大家留了个悬念。科研文章的插图通常要求比较高，不仅要精准地展示出数据，选对图表类型，还需要简洁优美（?翻译

2023-05-18 00:28:07

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.绘图环形柱状图排好序的环形柱状图调整颜色注意事项不知不觉，距离小仙上次发文已经过去

2023-05-18 00:27:29

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图今天小仙给大家分享一下Slope chart(坡度图)的画法，我在paper中看到的图是

2023-05-18 00:27:22

目录Step 1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4. 饼图百分比标签准备Step5.绘图今天要给大家介绍的Pie chart（饼图），本来是不打算写这个的

2023-05-18 00:27:16

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图添加平均值添加误差线今天要给大家介绍的是点图（Dot plot)，点图展示的数据比较

2023-05-18 00:26:54

目录引言安装例子高级特性引言patchwork是基于ggplot2的拼图包，因为ggplot2本身没有强大的拼图语法，而一般使用的gridExtra与cowplot的拼ggplot2图形都存在不少问题。我关注这

2023-05-18 00:26:46

条形统计图是用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条.带误差的条形图可以通过误差线来判断显著性。继续使用我们的汽车销售数据（公众号回复：汽车销售

2023-05-18 00:26:32

目录1.读取数据2.AUC和CI的计算3.利用ggplot2绘图4.合并多个ROC曲线结果pROC是一个专门用来计算和绘制ROC曲线的R包，目前已被CRAN收录，因此安装也非常简单，同时该包也兼容ggplo

2023-05-18 00:26:26

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4. 绘图Step5.美化老铁们，许久未见啦。顺便说一下，最近可不是小仙同学偷懒哟，电脑上个

2023-05-18 00:26:23

目录1.正整数下标2.负整数下标3.空下标与零下标4.下标超界5.逻辑下标6. which()、which.min()、which.max() 函数7. 元素名8.用 R 向量下标作映射9.集合运算练习 1.正整数下

2023-05-18 00:26:18

时光飞逝，岁月如梭，转眼又是一年过去了，本小仙怎么还是一事无成呢！转念一想，这种事也不是一次两次了，再多一个又何妨，哈哈！回归正题，今天就给大家介绍下直方图（histogram）的“好兄

2023-05-18 00:26:11

目录火山图输入数据格式使用significant列绘制火山图自动计算significant列绘制火山图火山图中标记基因的名字火山图火山图用于展示基因表达差异的分布，横轴为Log2 Fold Chan

2023-05-18 00:26:06

R刚入门的时候，能够正确读取单个文件就觉得小有成就，随着时间的积累，单一文件地读取已经不能满足需求了，此时，批量地做就是解放双手地过程。使用for循环把下载地TCGA数据读入R语

2023-05-18 00:26:01

目录前言一、R包及数据二、upset()函数1）基本参数2）queries参数3）attribute.plots参数3.1 添加柱形图和散点图3.2 添加箱线图3.3 添加密度曲线图前言介绍一个R包UpSetR，专门用来

2023-05-18 00:25:57

目录引言绘图示例1、下载安装ggtreeExtra包2、加载依赖包3、设置工作目录4、数据来源5、获取数据6、绘制树状图7、获取数据集绘制图a、绘制点图层b、绘制热图层c、绘制热图

2023-05-18 00:25:52

前言h5只是一种简单的数据组织格式【层级数据存储格式(HierarchicalDataFormat：HDF)】，该格式被设计用以存储和组织大量数据。在一些单细胞文献中，作者通常会将分析的数据上传

2023-05-18 00:25:45

目录更新前原文作图方法：Step1.绘图数据的准备Step2.绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图数据格式调整Step5.绘图填充透明度调整方法如下：1.取消编组2

2023-05-18 00:25:43

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.因子水平排序Step5.绘图今天给大家分享的是Lollipop chart(棒棒糖图)的画法。棒棒糖图

2023-05-18 00:25:19

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图Step5.美化又是一个好久不见，朋友们你们最近还好吗！最近小仙同学刚经历了人生

2023-05-18 00:25:14

目录前言效果展示小结参考附录：RVirusBroadcast代码前言前几天微博的一个热搜主题是**“计算机仿真程序告诉你为什么现在还没到出门的时候！！！”**，该视频用模拟的疫情

2023-05-18 00:25:10

目录1. W检验（Shapiro–Wilk (夏皮罗–威克尔 ) W统计量检验)2. K检验(经验分布的Kolmogorov-Smirnov检验)3. 相关性检验：4. T检验5. 正态总体方差检验6. 二项分布

2023-05-18 00:24:45

2021-03-11

2021-11-06

2021-03-12

2021-03-16

2021-03-11

2021-11-06

2021-03-15

R语言基础统计方法图文实例讲解

地理探测器R语言实现：geodetector

基于R语言的raster包读取遥感影像

R语言绘制数据可视化Dumbbell plot哑铃图

详解R语言图像处理EBImage包

R语言绘制数据可视化小提琴图Violin plot with dot画法

R语言绘制带ErrorBar的分组条形图代码的分享

R语言列表和数据框的具体使用

使用R语言绘制3D数据可视化scatter散点图实现步骤

R语言绘图数据可视化Ridgeline plot山脊图画法

R语言绘图技巧导出高清图方法

R语言数据可视化绘制Circular bar plot实现环形柱状图

R语言数据可视化绘图Slope chart坡度图画法

R语言绘图数据可视化pie chart饼图

R语言数据可视化绘图Dot plot点图画法示例

R语言ggplot2拼图包patchwork安装使用

R语言绘制带误差线的条形图

R语言实现漂亮的ROC图效果

R语言绘制Facet violin plot小提琴刻面图实现示例

R语言向量下标和子集的使用

R语言数据可视化绘图bar chart条形图实现示例

R语言学习之火山图的绘制详解

R语言批量读取某路径下文件内容的方法

R语言UpSet包实现集合可视化示例详解

R包ggtreeExtra绘制进化树

R语言rhdf5读写hdf5并展示文件组织结构和索引数据

R语言绘制Radar chart雷达图

R语言数据可视化绘图Lollipop chart棒棒糖图

R语言绘制Bubble Matrix气泡矩阵图

R语言模拟疫情传播图RVirusBroadcast展示疫情数据

基于R语言数据检验详解

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道