R语言学习Rcpp基础知识全面整理

时间：2021-11-07

阅读：

1. 相关配置和说明

由于Dirk的书Seamless R and C++ Integration with Rcpp是13年出版的，当时Rcpp Attributes这一特性还没有被CRAN批准，所以当时调用和编写Rcpp函数还比较繁琐。Rcpp Attributes（2016）极大简化了这一过程(“provides an even more direct connection between C++ and R”)，保留了内联函数，并提供了sourceCpp函数用于调用外部的.cpp文件。换句话说，我们可以将某C++函数存在某个.cpp文件中，再从R脚本文件中，像使用source一样，通过sourceCpp来调用此C++函数。

例如，在R脚本文件中，我们希望调用名叫test.cpp文件中的函数，我们可以采用如下操作：

library(Rcpp)
Sys.setenv("PKG_CXXFLAGS"="-std=c++11")
sourceCpp("test.cpp")

其中第二行的意思是使用C++11的标准来编译文件。

在test.cpp文件中, 头文件使用Rcpp.h，需要输出到R中的函数放置在//[[Rcpp::export]]之后。如果要输出到R中的函数需要调用其他C++函数，可以将这些需要调用的函数放在//[[Rcpp::export]]之前。

#include <Rcpp.h>
using namespace Rcpp;
//[[Rcpp::export]]

为进行代数计算，Rcpp提供了RcppArmadillo和RcppEigen。如果要使用此包，需要在函数文件开头注明依赖关系，例如// [[Rcpp::depends(RcppArmadillo)]]，并载入相关头文件：

// [[Rcpp::depends(RcppArmadillo)]]
#include <RcppArmadillo.h>
#include <Rcpp.h>
using namespace Rcpp;
using namespace arma;
// [[Rcpp::export]]

C++的基本知识可以参见此处。

2. 常用数据类型

关键字	描述
int/double/bool/String/auto	整数型/数值型/布尔值/字符型/自动识别(C++11)
IntegerVector	整型向量
NumericVector	数值型向量(元素的类型为double)
ComplexVector	复数向量 Not Sure
LogicalVector	逻辑型向量； R的逻辑型变量可以取三种值：TRUE, FALSE, NA；而C++布尔值只有两个,true or false。如果将R的NA转化为C++中的布尔值，则会返回true。
CharacterVector	字符型向量
ExpressionVector	vectors of expression types
RawVector	vectors of type raw
IntegerMatrix	整型矩阵
NumericMatrix	数值型矩阵(元素的类型为double)
LogicalMatrix	逻辑型矩阵
CharacterMatrix	字符矩阵
List aka GenericVector	列表；lists;类似于R中列表，其元素可以使任何数据类型
DataFrame	数据框；data frames；在Rcpp内部，数据框其实是通过列表实现的
Function	函数型
Environment	环境型；可用于引用R环境中的函数、其他R包中的函数、操作R环境中的变量
RObject	可以被R识别的类型

注释：

某些R对象可以通过as<Some_RcppObject>(Some_RObject)转化为转化为Rcpp对象。例如:
在R中拟合一个线性模型（其为List），并将其传入C++函数中

>mod=lm(Y~X);

NumericVector resid = as<NumericVector>(mod["residuals"]);
NumericVector fitted = as<NumericVector>(mod["fitted.values"]);

可以通过as<some_STL_vector>(Some_RcppVector)，将NumericVector转换为std::vector。例如：

std::vector<double> vec;
vec = as<std::vector<double>>(x);

在函数中，可以用wrap()，将std::vector转换为NumericVector。例如：

arma::vec long_vec(16,arma::fill::randn);
vector<double> long_vec2 = conv_to<vector<double>>::from(long_vec);
NumericVector output = wrap(long_vec2);

在函数返回时，可以使用wrap()，将C++ STL类型转化为R可识别类型。示例见后面输入和输出示例部分。

以上数据类型除了Environment之外（Function不确定），大多可直接作为函数返回值，并被自动转化为R对象。

算数和逻辑运算符号+, -, *, /, ++, --, pow(x,p), <, <=, >, >=, ==, !=。逻辑关系符号&&, ||, !。

3. 常用数据类型的建立

//1. Vector
NumericVector V1(n);//创立了一个长度为n的默认初始化的数值型向量V1。
NumericVector V2=NumericVector::create(1, 2, 3); //创立了一个数值型向量V2，并初始化使其含有三个数1，2，3。
LogicalVector V3=LogicalVector::create(true,false,R_NaN);//创立了一个逻辑型变量V3。如果将其转化为R Object，则其含有三个值TRUE, FALSE, NA。
//2. Matrix
NumericMatrix M1(nrow,ncol);//创立了一个nrow*ncol的默认初始化的数值型矩阵。
//3. Multidimensional Array
NumericVector out=NumericVector(Dimension(2,2,3));//创立了一个多维数组。然而我不知道有什么卵用。。
//4. List
NumericMatrix y1(2,2);
NumericVector y2(5);
List L=List::create(Named("y1")=y1,
                    Named("y2")=y2);

//5. DataFrame
NumericVector a=NumericVector::create(1,2,3);
CharacterVector b=CharacterVector::create("a","b","c");
std::vector<std::string> c(3);
c[0]="A";c[1]="B";c[2]="C";
DataFrame DF=DataFrame::create(Named("col1")=a,
                               Named("col2")=b,
                               Named("col3")=c);

4. 常用数据类型元素访问

元素访问	描述
[n]	对于向量类型或者列表，访问第n个元素。对于矩阵类型，首先把矩阵的下一列接到上一列之下，从而构成一个长列向量，并访问第n个元素。不同于R，n从0开始。
(i,j)	对于矩阵类型，访问第(i,j)个元素。不同于R，i和j从0开始。不同于向量，此处用圆括号。
List["name1"]/DataFrame["name2"]	访问List中名为name1的元素/访问DataFrame中，名为name2的列。

5. 成员函数

成员函数	描述
X.size()	返回X的长度；适用于向量或者矩阵，如果是矩阵，则先向量化
X.push_back(a)	将a添加进X的末尾；适用于向量
X.push_front(b)	将b添加进X的开头；适用于向量
X.ncol()	返回X的列数
X.nrow()	返回X的行数

6. 语法糖

6.1 算术和逻辑运算符

+, -, *, /, pow(x,p), <, <=, >, >=, ==, !=, !

以上运算符均可向量化。

6.2. 常用函数

is.na()
Produces a logical sugar expression of the same length. Each element of the result expression evaluates to TRUE if the corresponding input is a missing value, or FALSE otherwise.

seq_len()
seq_len( 10 ) will generate an integer vector from 1 to 10 (Note: not from 0 to 9), which is very useful in conjugation withsapply() and lapply().

pmin(a,b) and pmax(a,b)
a and b are two vectors. pmin()(or pmax()) compares the i <script type="math/tex" id="MathJax-Element-1">i</script>th elements of a and b and return the smaller (larger) one.

ifelse()
ifelse( x > y, x+y, x-y ) means if x>y is true, then do the addition; otherwise do the subtraction.

sapply()
sapply applies a C++ function to each element of the given expression to create a new expression. The type of the resulting expression is deduced by the compiler from the result type of the function.

The function can be a free C++ function such as the overload generated by the template function below:

template <typename T>
T square( const T& x){
    return x * x ;
}
sapply( seq_len(10), square<int> ) ;

Alternatively, the function can be a functor whose type has a nested type called result_type

template <typename T>
struct square : std::unary_function<T,T> {
    T operator()(const T& x){
    return x * x ;
    }
}
sapply( seq_len(10), square<int>() ) ;

lappy()
lapply is similar to sapply except that the result is allways an list expression (an expression of type VECSXP).

sign()

其他函数

数学函数: abs(), acos(), asin(), atan(), beta(), ceil(), ceiling(), choose(), cos(), cosh(), digamma(), exp(), expm1(), factorial(), floor(), gamma(), lbeta(), lchoose(), lfactorial(), lgamma(), log(), log10(), log1p(), pentagamma(), psigamma(), round(), signif(), sin(), sinh(), sqrt(), tan(), tanh(), tetragamma(), trigamma(), trunc().
汇总函数: mean(), min(), max(), sum(), sd(), and (for vectors) var()
返回向量的汇总函数: cumsum(), diff(), pmin(), and pmax()
查找函数: match(), self_match(), which_max(), which_min()
重复值处理函数: duplicated(), unique()

7. STL

Rcpp可以使用C++的标准模板库STL中的数据结构和算法。Rcpp也可以使用Boost中的数据结构和算法。

7.1. 迭代器

此处仅仅以一个例子代替，详细参见C++ Primer，或者此处。

#include <Rcpp.h>
using namespace Rcpp;
// [[Rcpp::export]]
double sum3(NumericVector x) {
  double total = 0;
  NumericVector::iterator it;
  for(it = x.begin(); it != x.end(); ++it) {
    total += *it;
  }
  return total;
}

7.2. 算法

头文件<algorithm>中提供了许多的算法（可以和迭代器共用），具体可以参见此处。

For example, we could write a basic Rcpp version of findInterval() that takes two arguments a vector of values and a vector of breaks, and locates the bin that each x falls into.

#include <algorithm>
#include <Rcpp.h>
using namespace Rcpp;
// [[Rcpp::export]]
IntegerVector findInterval2(NumericVector x, NumericVector breaks) {
  IntegerVector out(x.size());
  NumericVector::iterator it, pos;
  IntegerVector::iterator out_it;
  for(it = x.begin(), out_it = out.begin(); it != x.end(); 
      ++it, ++out_it) {
    pos = std::upper_bound(breaks.begin(), breaks.end(), *it);
    *out_it = std::distance(breaks.begin(), pos);
  }
  return out;
}

7.3. 数据结构

STL所提供的数据结构也是可以使用的，Rcpp知道如何将STL的数据结构转换成R的数据结构，所以可以从函数中直接返回他们，而不需要自己进行转换。
具体请参考此处。

7.3.1. Vectors

详细信息请参见处此

创建
vector<int>, vector<bool>, vector<double>, vector<String>

元素访问
利用标准的[]符号访问元素

元素增加
利用.push_back()增加元素。

存储空间分配
如果事先知道向量长度，可用.reserve()分配足够的存储空间。

例子：

The following code implements run length encoding (rle()). It produces two vectors of output: a vector of values, and a vector lengths giving how many times each element is repeated. It works by looping through the input vector x comparing each value to the previous: if it's the same, then it increments the last value in lengths; if it's different, it adds the value to the end of values, and sets the corresponding length to 1.

#include <Rcpp.h>
using namespace Rcpp;

// [[Rcpp::export]]
List rleC(NumericVector x) {
  std::vector<int> lengths;
  std::vector<double> values;

  // Initialise first value
  int i = 0;
  double prev = x[0];
  values.push_back(prev);
  lengths.push_back(1);

  NumericVector::iterator it;
  for(it = x.begin() + 1; it != x.end(); ++it) {
    if (prev == *it) {
      lengths[i]++;
    } else {
      values.push_back(*it);
      lengths.push_back(1);

      i++;
      prev = *it;
    }
  }
  return List::create(
    _["lengths"] = lengths, 
    _["values"] = values
  );
}

7.3.2. Sets

参见链接1，链接2和链接3。

STL中的集合std::set不允许元素重复，而std::multiset允许元素重复。集合对于检测重复和确定不重复的元素具有重要意义((like unique, duplicated, or in))。

Ordered set: std::set和std::multiset。

Unordered set: std::unordered_set
一般而言unordered set比较快，因为它们使用的是hash table而不是tree的方法。
unordered_set<int>, unordered_set<bool>, etc

7.3.3. Maps

与table()和match()关系密切。

Ordered map: std::map

Unordered map: std::unordered_map

Since maps have a value and a key, you need to specify both types when initialising a map:

map<double, int>, unordered_map<int, double>.

8. 与R环境的互动

通过EnvironmentRcpp可以获取当前R全局环境(Global Environment)中的变量和载入的函数，并可以对全局环境中的变量进行修改。我们也可以通过Environment获取其他R包中的函数，并在Rcpp中使用。

获取其他R包中的函数

Rcpp::Environment stats("package:stats");
Rcpp::Function rnorm = stats["rnorm"];
return rnorm(10, Rcpp::Named("sd", 100.0));

获取R全局环境中的变量并进行更改
假设R全局环境中有一个向量x=c(1,2,3)，我们希望在Rcpp中改变它的值。

Rcpp::Environment global = Rcpp::Environment::global_env();//获取全局环境并赋值给Environment型变量global
Rcpp::NumericVector tmp = global["x"];//获取x
tmp=pow(tmp,2);//平方
global["x"]=tmp;//将新的值赋予到全局环境中的x

获取R全局环境中的载入的函数
假设全局环境中有R函数funR，其定义为：

x=c(1,2,3);
funR<-function(x){
  return (-x);
}

并有R变量x=c(1,2,3)。我们希望在Rcpp中调用此函数并应用在向量x上。

#include <Rcpp.h>
using namespace Rcpp;
// [[Rcpp::export]]
NumericVector funC() {
  Rcpp::Environment global =
    Rcpp::Environment::global_env();
  Rcpp::Function funRinC = global["funR"];
  Rcpp::NumericVector tmp = global["x"];
  return funRinC(tmp);
}

9. 用Rcpp创建R包

见此文

利用Rcpp和RcppArmadillo创建R包

10. 输入和输出示例

如何传递数组

如果要传递高维数组，可以将其存为向量，并附上维数信息。有两种方式：

通过.attr("dim")设置维数

NumericVector可以包含维数信息。数组可以用过NumericVector输出到R中。此NumericVector可以通过.attr(“dim”)设置其维数信息。

// Dimension最多设置三个维数
output.attr("dim") = Dimension(3,4,2);
// 可以给.attr(“dim”)赋予一个向量，则可以设置超过三个维数
NumericVector dim = NumericVector::create(2,2,2,2);
output.attr("dim") = dim;

示例：

// 返回一个3*3*2数组
RObject func(){
  arma::vec long_vec(18,arma::fill::randn);
  vector<double> long_vec2 = conv_to<vector<double>>::from(long_vec);
  NumericVector output = wrap(long_vec2);
  output.attr("dim")=Dimension(3,3,2);
  return wrap(output);
}

// 返回一个2*2*2*2数组 
// 注意con_to<>::from()
RObject func(){
  arma::vec long_vec(16,arma::fill::randn);
  vector<double> long_vec2 = conv_to<vector<double>>::from(long_vec);
  NumericVector output = wrap(long_vec2);
  NumericVector dim = NumericVector::create(2,2,2,2);
  output.attr("dim")=dim;
  return wrap(output);
}

另外建立一个向量存维数，在R中再通过.attr("dim")设置维数

函数返回一维STL vector

自动转化为R中的向量

vector<double> func(NumericVector x){
  vector<double> vec;
  vec = as<vector<double>>(x);
  return vec;
}
NumericVector func(NumericVector x){
  vector<double> vec;
  vec = as<vector<double>>(x);
  return wrap(vec);
}
RObject func(NumericVector x){
  vector<double> vec;
  vec = as<vector<double>>(x);
  return wrap(vec);
}

函数返回二维STL vector

自动转化为R中的list，list中的每个元素是一个vector。

vector<vector<double>> func(NumericVector x) {
  vector<vector<double>> mat;
  for (int i=0;i!=3;++i){
    mat.push_back(as<vector<double>>(x));
  }
  return mat;
}
RObject func(NumericVector x) {
  vector<vector<double>> mat;
  for (int i=0;i!=3;++i){
    mat.push_back(as<vector<double> >(x));
  }
  return wrap(mat);
}

返回Armadillo matrix, Cube 或 field

自动转化为R中的matrix

NumericMatrix func(){
  arma::mat A(3,4,arma::fill::randu);
  return wrap(A);
}
arma::mat func(){
  arma::mat A(3,4,arma::fill::randu);
  return A;
}

自动转化为R中的三维array

arma::cube func(){
  arma::cube A(3,4,5,arma::fill::randu);
  return A;
}
RObject func(){
  arma::cube A(3,4,5,arma::fill::randu);
  return wrap(A);
}

自动转化为R list，每个元素存储一个R向量，但此向量有维数信息（通过.Internal(inspect())查询）。

RObject func() {
  arma::cube A(3,4,2,arma::fill::randu);
  arma::cube B(3,4,2,arma::fill::randu);
  arma::field <arma::cube> F(2,1);
  F(0)=A;
  F(1)=B;
  return wrap(F);
}

参考文献：

Eddelbuettel, D. (2013). Seamless R and C++ Integration with Rcpp. Springer Publishing Company, Incorporated. ·

Allaire, J.J. (2016). Rcpp Attributes.

Eddelbuettel, D. (2016). Rcpp syntactic sugar.

http://adv-r.had.co.nz/Rcpp.html

http://www.rcpp.org/

http://blog.csdn.net/a358463121

http://www.runoob.com/cplusplus/cpp-operators.html

如需引用，请注明出处。

以上就是R语言学习Rcpp知识全面整理的详细内容，更多关于Rcpp知识全面整理的资料请关注其它相关文章！

&emsp;&emsp;本文介绍基于R语言中的geodetector包，依据多张栅格图像数据，实现地理探测器（Geodetector）操作的详细方法。&emsp;&emsp;需要说明的是，在R语言中进行地理探测器操作，可

2024-03-18 17:41:25

&emsp;&emsp;本文介绍基于R语言中的raster包，读取单张或批量读取多张栅格图像，并对栅格图像数据加以基本处理的方法。1 包的安装与导入&emsp;&emsp;首先，我们需要配置好对应的R

2024-03-15 20:58:53

目录Step1. 绘图数据的准备Step3. 绘图所需package的安装、调用Step4. 绘图改变size的大小调整顺序又是一年春来到，小仙祝大家在新的一年开开心心、顺顺利利！
今天给大家分享

2023-05-18 00:29:17

目录什么是EBImage1. 图像读取与保存2.色彩管理3.图像处理4.空间变换5.形态运算6.图像分割本文摘自《Keras深度学习：入门、实战及进阶》第四章部分章节。什么是EBImageEBImag

2023-05-18 00:28:50

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图小提琴图之前已经画过了，不过最近小仙又看到一种貌美的画法，决定复刻一下。

2023-05-18 00:28:44

目录第一种实现方法：用aggregate计算数据第二种实现方法：用dplyr包计算数据笔者近期画了一张带error bar的分组条形图，将相关的代码分享一下。感谢网友青山屋主的建议，提示笔者

2023-05-18 00:28:35

目录1.列表1.1创建1.2 访问 1.3 注意2.数据框2.1 创建2.2 访问1.列表列表“list”是一种比较的特别的对象集合，不同的序号对于不同的元素，当然元素的也可以是不同类

2023-05-18 00:28:13

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.绘图调整3D点的大小调整透明度注意事项它来了它来了，它顺着网线走来了…
哈哈，今天

2023-05-18 00:28:12

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图调整透明度更改顺序更改线条形状今天给大家介绍一下Ridgeline plot（山脊图）

2023-05-18 00:28:09

上一次小仙同学分享了 facet violin plot的画法，最后还卖了个关子，给大家留了个悬念。科研文章的插图通常要求比较高，不仅要精准地展示出数据，选对图表类型，还需要简洁优美（?翻译

2023-05-18 00:28:07

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.绘图环形柱状图排好序的环形柱状图调整颜色注意事项不知不觉，距离小仙上次发文已经过去

2023-05-18 00:27:29

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3. 绘图所需package的安装、调用Step4. 绘图今天小仙给大家分享一下Slope chart(坡度图)的画法，我在paper中看到的图是

2023-05-18 00:27:22

目录Step 1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4. 饼图百分比标签准备Step5.绘图今天要给大家介绍的Pie chart（饼图），本来是不打算写这个的

2023-05-18 00:27:16

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图添加平均值添加误差线今天要给大家介绍的是点图（Dot plot)，点图展示的数据比较

2023-05-18 00:26:54

目录引言安装例子高级特性引言patchwork是基于ggplot2的拼图包，因为ggplot2本身没有强大的拼图语法，而一般使用的gridExtra与cowplot的拼ggplot2图形都存在不少问题。我关注这

2023-05-18 00:26:46

条形统计图是用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条.带误差的条形图可以通过误差线来判断显著性。继续使用我们的汽车销售数据（公众号回复：汽车销售

2023-05-18 00:26:32

目录1.读取数据2.AUC和CI的计算3.利用ggplot2绘图4.合并多个ROC曲线结果pROC是一个专门用来计算和绘制ROC曲线的R包，目前已被CRAN收录，因此安装也非常简单，同时该包也兼容ggplo

2023-05-18 00:26:26

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4. 绘图Step5.美化老铁们，许久未见啦。顺便说一下，最近可不是小仙同学偷懒哟，电脑上个

2023-05-18 00:26:23

目录1.正整数下标2.负整数下标3.空下标与零下标4.下标超界5.逻辑下标6. which()、which.min()、which.max() 函数7. 元素名8.用 R 向量下标作映射9.集合运算练习 1.正整数下

2023-05-18 00:26:18

时光飞逝，岁月如梭，转眼又是一年过去了，本小仙怎么还是一事无成呢！转念一想，这种事也不是一次两次了，再多一个又何妨，哈哈！回归正题，今天就给大家介绍下直方图（histogram）的“好兄

2023-05-18 00:26:11

目录火山图输入数据格式使用significant列绘制火山图自动计算significant列绘制火山图火山图中标记基因的名字火山图火山图用于展示基因表达差异的分布，横轴为Log2 Fold Chan

2023-05-18 00:26:06

R刚入门的时候，能够正确读取单个文件就觉得小有成就，随着时间的积累，单一文件地读取已经不能满足需求了，此时，批量地做就是解放双手地过程。使用for循环把下载地TCGA数据读入R语

2023-05-18 00:26:01

目录前言一、R包及数据二、upset()函数1）基本参数2）queries参数3）attribute.plots参数3.1 添加柱形图和散点图3.2 添加箱线图3.3 添加密度曲线图前言介绍一个R包UpSetR，专门用来

2023-05-18 00:25:57

目录引言绘图示例1、下载安装ggtreeExtra包2、加载依赖包3、设置工作目录4、数据来源5、获取数据6、绘制树状图7、获取数据集绘制图a、绘制点图层b、绘制热图层c、绘制热图

2023-05-18 00:25:52

前言h5只是一种简单的数据组织格式【层级数据存储格式(HierarchicalDataFormat：HDF)】，该格式被设计用以存储和组织大量数据。在一些单细胞文献中，作者通常会将分析的数据上传

2023-05-18 00:25:45

目录更新前原文作图方法：Step1.绘图数据的准备Step2.绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图数据格式调整Step5.绘图填充透明度调整方法如下：1.取消编组2

2023-05-18 00:25:43

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的调用Step4.因子水平排序Step5.绘图今天给大家分享的是Lollipop chart(棒棒糖图)的画法。棒棒糖图

2023-05-18 00:25:19

目录Step1. 绘图数据的准备Step2. 绘图数据的读取Step3.绘图所需package的安装、调用Step4.绘图Step5.美化又是一个好久不见，朋友们你们最近还好吗！最近小仙同学刚经历了人生

2023-05-18 00:25:14

目录前言效果展示小结参考附录：RVirusBroadcast代码前言前几天微博的一个热搜主题是**“计算机仿真程序告诉你为什么现在还没到出门的时候！！！”**，该视频用模拟的疫情

2023-05-18 00:25:10

目录1. W检验（Shapiro–Wilk (夏皮罗–威克尔 ) W统计量检验)2. K检验(经验分布的Kolmogorov-Smirnov检验)3. 相关性检验：4. T检验5. 正态总体方差检验6. 二项分布

2023-05-18 00:24:45

2021-03-11

2021-11-06

2021-03-12

2021-03-16