win10+VS2017+Cuda10.0环境配置详解_C类语言-免费资源网

来自：网络

时间：2020-11-01

阅读：

一、安装

1.1硬件支持

首先确定你的电脑显卡是支持Cuda安装的。
右键“我的电脑”，然后点击“设备管理器”。在显示适配器里可以查看显卡型号。
如果包含在官网列表中，则可以点击对应的型号到下载界面下载Cuda安装包。

1.2 安装VS2017
官网下载VS2017，并安装。

1.3 安装Cuda
在安装过程中，会自动检测本机是否已经安装了配套的VS版本其中之一，如果VS版本和Cuda版本不匹配的话，安装无法进行。
（另外，如果电脑安装了360杀毒的话，安装过程中会不断有疑似病毒修改的提示，要全部允许操作，否则无法安装。）

以上步骤无报错通过之后，基本环境已经搭建完成。

二、测试环境是否成功

参考了很多，所以有好几种办法，我全部列出来。

2.1

运行cmd，
输入nvcc --version,即可查看版本号，如图：

set cuda，可以查看cuda设置的环境变量，如图

2.2
开始菜单->NVIDIA Corporation->CUDA Samples->6.5->Browse CUDA Samples,左键单击打开示例代码的位置，
找到下图所示文件，在VS中打开并编译（Build)。

这个过程大约需要四十分钟，编译成功后，你将在VS中方看到如图所示的提示。

（在编译过程中，我的VS报了如下找不到SDK错误：

解决办法为：
无需重装，在开始菜单中找到VS的安装软件点击打开，点击修改（modify），缺少哪个版本安装哪个windows SDK即可。）

未编译前，Debug文件夹中只有三个文件，如图。

成功编译后这个位置（具体路径见上图）将生成很多文件，在其中找到deviceQueryDrv.exe的程序拖入到cmd中，回车运行。
结果如下图，我们得到了本机的GPU硬件信息。注意：关注第二行计算能力，可以看到这台机器的计算能力是5.0。

2.3

打开vs2017，（我们可以观察到，在VS2017模板一栏下方出现了“NVIDIA/CUDA 10.0”。）创建一个空win32程序,即cuda_test项目。选择cuda_test，点击右键–>项目依赖项–>自定义生成，选择CUDA9.0。右键源文件文件夹->添加->新建项->选择CUDA C/C++File，取名cuda_main。点击cuda_main.cu的属性,在配置属性–>常规–>项类型–>选择“CUDA C/C++”。

注意：以下步骤中的项目属性设置均针对x64

6. 包含目录配置：
1.右键点击项目属性–>属性–>配置属性–>VC++目录–>包含目录
2.添加包含目录：$(CUDA_PATH)\include

7. 库目录配置
1.VC++目录–>库目录
2.添加库目录：$(CUDA_PATH)\lib\x64

8. 依赖项
1.配置属性–>链接器–>输入–>附加依赖项
2.添加库文件：cublas.lib;cuda.lib;cudadevrt.lib;cudart.lib;cudart_static.lib;OpenCL.lib

cuda_main.cu代码如下：

#include "cuda_runtime.h" 
#include "cublas_v2.h" 

#include <time.h> 
#include <iostream> 

using namespace std;

// 定义测试矩阵的维度 
int const M = 5;
int const N = 10;

int main()
{
	// 定义状态变量 
	cublasStatus_t status;

	// 在 内存 中为将要计算的矩阵开辟空间 
	float *h_A = (float*)malloc(N*M * sizeof(float));
	float *h_B = (float*)malloc(N*M * sizeof(float));

	// 在 内存 中为将要存放运算结果的矩阵开辟空间 
	float *h_C = (float*)malloc(M*M * sizeof(float));

	// 为待运算矩阵的元素赋予 0-10 范围内的随机数 
	for (int i = 0; i < N*M; i++) {
		h_A[i] = (float)(rand() % 10 + 1);
		h_B[i] = (float)(rand() % 10 + 1);

	}

	// 打印待测试的矩阵 
	cout << "矩阵 A :" << endl;
	for (int i = 0; i < N*M; i++) {
		cout << h_A[i] << " ";
		if ((i + 1) % N == 0) cout << endl;
	}
	cout << endl;
	cout << "矩阵 B :" << endl;
	for (int i = 0; i < N*M; i++) {
		cout << h_B[i] << " ";
		if ((i + 1) % M == 0) cout << endl;
	}
	cout << endl;

	/*
	** GPU 计算矩阵相乘
	*/

	// 创建并初始化 CUBLAS 库对象 
	cublasHandle_t handle;
	status = cublasCreate(&handle);

	if (status != CUBLAS_STATUS_SUCCESS)
	{
		if (status == CUBLAS_STATUS_NOT_INITIALIZED) {
			cout << "CUBLAS 对象实例化出错" << endl;
		}
		getchar();
		return EXIT_FAILURE;
	}

	float *d_A, *d_B, *d_C;
	// 在 显存 中为将要计算的矩阵开辟空间 
	cudaMalloc(
		(void**)&d_A,  // 指向开辟的空间的指针 
		N*M * sizeof(float)  //　需要开辟空间的字节数 
	);
	cudaMalloc(
		(void**)&d_B,
		N*M * sizeof(float)
	);

	// 在 显存 中为将要存放运算结果的矩阵开辟空间 
	cudaMalloc(
		(void**)&d_C,
		M*M * sizeof(float)
	);

	// 将矩阵数据传递进 显存 中已经开辟好了的空间 
	cublasSetVector(
		N*M,  // 要存入显存的元素个数 
		sizeof(float),  // 每个元素大小 
		h_A,  // 主机端起始地址 
		1,  // 连续元素之间的存储间隔 
		d_A,  // GPU 端起始地址 
		1  // 连续元素之间的存储间隔 
	);
	cublasSetVector(
		N*M,
		sizeof(float),
		h_B,
		1,
		d_B,
		1
	);

	// 同步函数 
	cudaThreadSynchronize();

	// 传递进矩阵相乘函数中的参数，具体含义请参考函数手册。 
	float a = 1; float b = 0;
	// 矩阵相乘。该函数必然将数组解析成列优先数组 
	cublasSgemm(
		handle,  // blas 库对象  
		CUBLAS_OP_T,  // 矩阵 A 属性参数 
		CUBLAS_OP_T,  // 矩阵 B 属性参数 
		M,  // A, C 的行数  
		M,  // B, C 的列数 
		N,  // A 的列数和 B 的行数 
		&a,  // 运算式的 α 值 
		d_A,  // A 在显存中的地址 
		N,  // lda 
		d_B,  // B 在显存中的地址 
		M,  // ldb 
		&b,  // 运算式的 β 值 
		d_C,  // C 在显存中的地址(结果矩阵) 
		M  // ldc 
	);

	// 同步函数 
	cudaThreadSynchronize();

	// 从 显存 中取出运算结果至 内存中去 
	cublasGetVector(
		M*M,  // 要取出元素的个数 
		sizeof(float),  // 每个元素大小 
		d_C,  // GPU 端起始地址 
		1,  // 连续元素之间的存储间隔 
		h_C,  // 主机端起始地址 
		1  // 连续元素之间的存储间隔 
	);

	// 打印运算结果 
	cout << "计算结果的转置 ( (A*B)的转置 )：" << endl;

	for (int i = 0; i < M*M; i++) {
		cout << h_C[i] << " ";
		if ((i + 1) % M == 0) cout << endl;
	}

	// 清理掉使用过的内存 
	free(h_A);
	free(h_B);
	free(h_C);
	cudaFree(d_A);
	cudaFree(d_B);
	cudaFree(d_C);

	// 释放 CUBLAS 库对象 
	cublasDestroy(handle);

	getchar();

	return 0;
}

运行结果：

2.4

直接新建一个CUDA 10.0 Runtime 项目。如图（注意图中文件命名与本例无关，无需参考），

右键项目 → 属性 → 配置属性 → 链接器 → 常规 → 附加库目录，添加以下目录：
$(CUDA_PATH_V10_0)\lib$(Platform)

示例代码如下：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>

int main() {
	int deviceCount;
	cudaGetDeviceCount(&deviceCount);

	int dev;
	for (dev = 0; dev < deviceCount; dev++)
	{
		int driver_version(0), runtime_version(0);
		cudaDeviceProp deviceProp;
		cudaGetDeviceProperties(&deviceProp, dev);
		if (dev == 0)
			if (deviceProp.minor = 9999 && deviceProp.major == 9999)
				printf("\n");
		printf("\nDevice%d:\"%s\"\n", dev, deviceProp.name);
		cudaDriverGetVersion(&driver_version);
		printf("CUDA驱动版本:                  %d.%d\n", driver_version / 1000, (driver_version % 1000) / 10);
		cudaRuntimeGetVersion(&runtime_version);
		printf("CUDA运行时版本:                 %d.%d\n", runtime_version / 1000, (runtime_version % 1000) / 10);
		printf("设备计算能力:                  %d.%d\n", deviceProp.major, deviceProp.minor);
		printf("Total amount of Global Memory:         %u bytes\n", deviceProp.totalGlobalMem);
		printf("Number of SMs:                 %d\n", deviceProp.multiProcessorCount);
		printf("Total amount of Constant Memory:        %u bytes\n", deviceProp.totalConstMem);
		printf("Total amount of Shared Memory per block:    %u bytes\n", deviceProp.sharedMemPerBlock);
		printf("Total number of registers available per block: %d\n", deviceProp.regsPerBlock);
		printf("Warp size:                   %d\n", deviceProp.warpSize);
		printf("Maximum number of threads per SM:        %d\n", deviceProp.maxThreadsPerMultiProcessor);
		printf("Maximum number of threads per block:      %d\n", deviceProp.maxThreadsPerBlock);
		printf("Maximum size of each dimension of a block:   %d x %d x %d\n", deviceProp.maxThreadsDim[0],
			deviceProp.maxThreadsDim[1],
			deviceProp.maxThreadsDim[2]);
		printf("Maximum size of each dimension of a grid:    %d x %d x %d\n", deviceProp.maxGridSize[0], deviceProp.maxGridSize[1], deviceProp.maxGridSize[2]);
		printf("Maximum memory pitch:              %u bytes\n", deviceProp.memPitch);
		printf("Texture alignmemt:               %u bytes\n", deviceProp.texturePitchAlignment);
		printf("Clock rate:                   %.2f GHz\n", deviceProp.clockRate * 1e-6f);
		printf("Memory Clock rate:               %.0f MHz\n", deviceProp.memoryClockRate * 1e-3f);
		printf("Memory Bus Width:                %d-bit\n", deviceProp.memoryBusWidth);
	}

	return 0;
}

运行结果：

本文主要参考：1. https://blog.csdn.net/u013165921/article/details/77891913
2. https://www.cnblogs.com/wayne793377164/p/8185404.html

目录 0、常见的判断图片文件的方法 1. 根据文件扩展名判断代码示例优缺点 2. 通过文件头（Magic Number）判断代码示例优缺点 3. 使用 ImageSharp 判断文件是否为图

2024-10-18 23:26:39

目录 1.界面实现效果 2.简介 3.使用1.界面实现效果以下是具体的项目需要用到的效果展示，用于验证字母。2.简介自定义CaptchaMovableLabel，继承自QLabel类：
中间的4个字母，就是Ca

2024-10-18 23:26:30

目录一、函数输入二、函数输出三、使用示例一、函数输入输入有两个，参数一：需要截图的容器控件，参数二：保存截图的绝对路径路径<param name="control">控件名</param>
<param

2024-10-14 19:57:08

目录1. 使用 Lambda 表达式和标准库 std::function2. 使用 std::future 和 std::promise3. 使用协程 (C++20)4. 使用异步框架总结“地狱回调”（Callback Hell）是指

2024-09-10 22:05:57

目录简介什么是Buffer OverflowBuffer Overflow的常见原因如何检测和调试Buffer Overflow解决Buffer Overflow的最佳实践详细实例解析示例1：数组越界写入示例2：未检查输入长度

2024-09-10 22:05:55

目录引言段错误的产生原因段错误的检测方法段错误的预防措施段错误的解决方案总结引言段错误（Segmentation Fault）是 C++ 编程中常见且令人头疼的错误之一。段错误通常发生在

2024-09-10 22:05:53

QPushButton是Qt库中的一个重要组件，它是用户界面（UI）设计中常用的一个按钮控件。在Qt程序中，QPushButton用于创建可以在界面上点击响应操作的交互元素。它的主要作用包括：显示文

2024-09-10 22:05:51

目录引言示例需求开发环境代码实现运行结果程序分析注意引言之前写了一个手动切换多个布局的程序，下面来记录一下。
程序运行效果如下：示例需求通过点击程序界面上不同的布局

2024-09-10 22:05:49

目录前言1. 加载数据库驱动2. 创建数据库连接3. 执行SQL查询或命令4. 关闭数据库连接示例完整代码片段打开多个数据库使用建议总结前言在Qt中访问数据库涉及到几个关键步骤

2024-09-10 22:05:47

目录步骤 1: 安装Protobuf步骤 2: 配置Qt项目步骤 3: 编译和运行项目运行qmake以生成Makefile：注意事项在Qt项目中使用Protobuf（Protocol Buffers）可以有效地处理数据序列化和

2024-09-10 22:05:45

目录一：功能二：用法一：功能 iota 是给定一个初始元素，然后依次对序列中每个元素进行递增++操作，详见代码一； atoi 是将字符串转换成整数；atol, atoll 将字符串转换成

2024-09-10 22:05:43

目录前言1. 直接在字符串中包含空格2. 使用 %s 和空格3. 使用 \t 输出制表符（Tab）4. 使用循环输出多个空格5. 使用格式控制符输出空格总结前言在C语言中，输出空格可以通过使用

2024-09-10 22:05:41

一、为什么使用文件在学习完结构体后，为了检验学习成果，我们写了一个通讯录的小程序，当通讯录运行起来的时候，可以给通讯录中增加、删除数据，此时数据是存放在内存中的，当程序退出

2024-09-10 22:05:39

目录1. 使用 QThread::sleep示例代码：说明：优点：缺点：2. 使用 QTimer 和事件循环示例代码：说明：优点：缺点：3. 使用 QEventLoop 结合 QTimer示例代码：说明：优点：缺点：4. 使用 QPauseAnima

2024-09-10 22:05:35

目录C 语言中如何实现自定义数据类型的输入输出一、结构体数据类型的输入输出二、枚举数据类型的输入输出三、联合数据类型的输入输出四、使用指针实现复杂数据结构的输入输

2024-09-10 22:05:34

目录一、背景二、环境依赖安装三、编写kakfa生产者消费者3.1 生产者3.2 消费者3.3 编译运行3.3.1 编译生产者消费者3.3.2 运行验证3.4 SASL认证kakfa3.5 结束语一、背景在实

2024-09-10 22:05:32

目录传值传址传引用如何选择合适的参数传递方式在C++中，参数传递方式主要有三种：传值（pass by value）、传址（pass by address）、传引用（pass by reference）。每种方式都有其特定的使

2024-09-10 22:05:30

目录概述CHP_Sha256总结概述SHA-256，英文全称为Secure Hash Algorithm 256-bit，是一种广泛使用的密码散列函数，属于SHA-2家族。SHA-256算法由美国国家安全局（NSA）设计，并由美国国

2024-09-10 22:05:28

简介assert 是 C 语言中的一个宏，用于在程序运行时进行条件检查，主要用于调试目的。它在 <assert.h> 头文件中定义，用于验证程序中的假设条件是否成立，如果不成立，程序将打印错误

2024-09-10 22:05:26

目录1.引言2.简单示例3.推荐使用方法4.常见使用场景和注意事项4.1.检查参数的合法性4.2.assert不能使用改变环境的语句4.3.在未知的逻辑中添加assert(false)5.总结1.引言ass

2024-09-10 22:05:24

目录一、基本概念二、用法1.旧版用法（Qt4和早期Qt5）2.新版用法（推荐）3.自动连接（无需使用connect()函数）4.Lambda表达式（Qt5.4）三、断开连接disconnect()1.为什么使用disconnect()2.

2024-09-10 22:05:23

目录一、inline关键字1.1 什么是内联函数？1.2 为什么会有内联函数？1.2.1 回顾宏1.2.2 宏的改进–内联函数1.3 内联函数的特性二、指针空值nullptr2.1 C和C++中NULL的含义

2024-09-10 22:05:21

目录1.获取服务器IP2.安装并且启用ssh服务3.在vscode中远程连接 4.实现免密登录vscode的远程连接功能十分方便，可以让我们在一个开发工具中实现完整的工作流，下面介绍如何在vs

2024-09-10 22:05:18

目录LRU的概念哈希表（unordered_map）主要特性常用操作双向链表（list）特性常用操作LRU缓存（C++）初始化状态LRU的概念LRU（Least Recently Used，最近最少使用）是一种常用的缓存淘汰策略，

2024-09-10 22:05:16

目录一、前言二、代码实操2.1 将二进制数据转为Base64编码2.2 实现图片的base64编码和解码一、前言Base64编码是一种广泛使用的编码方案，将任意二进制数据转换为可打印的ASCI

2024-09-10 22:05:14

目录一、strcat函数的简介二、strcat函数的使用三、strcat函数的注意事项四、strcat函数的模拟实现一、strcat函数的简介strcat函数用于将源字符串追加到目标字符串的末尾，并

2024-09-10 22:05:12

目录1.C++ 的存储类型1.1.存储周期（Storage duration）1.2.存储类型说明符（Storage class specifiers）1.3.存储类型说明符与存储周期的关系2.thread_local简介3.thread_local 应

2024-09-10 22:05:10

c++栈内存和堆内存的基本使用#include <iostream>// 定义一个简单的结构体struct Person { std::string name; int age;};int main() { // 栈内存分配 int a = 10; //

2024-09-10 22:05:08

目录<mutex>std::call_once函数例程:使用call_once实现的单例模式std::mutex类 -- 独占互斥锁成员函数std::recursive_mutex类 -- 递归互斥锁使用注意:描述:std::timed_mute

2024-09-10 22:05:06

目录C++实现字符串元音字母反转的巧妙方法示例方法一：利用数据结构存储元音位置和字符并反转代码实现1. 如何在C++中存储数字和字符并支持翻转2. 判断字符是否在列表中3. 巧

2024-09-10 22:05:04

2020-05-31

2021-06-03

2020-05-26

2021-04-24

2020-11-01

2020-05-26

2021-02-22

2020-06-19

2020-11-01

win10+VS2017+Cuda10.0环境配置详解

使用C#判断文件是否为图片的多种方法

QT 实现随机验证码功能

C# Winform截图指定控件范围内的图像的流程步骤

C++解决回调地狱问题的方法小结

C语言报错：Buffer Overflow的原因和解决办法

C++报错：Segmentation Fault的解决方案

Qt中QPushButton组件的使用详解

Qt实现手动切换多种布局的完美方案

一篇文章详解Qt中如何访问数据库

Qt 编译配置 Protobuf 的详细步骤

C++ STL iota 和 atoi 用法示例详解

C语言中输出空格的五种方法

C语言文件操作入门指南

Qt中暂停程序的几种方法小结

C语言中实现自定义数据类型的输入输出的方法和技巧

详解C/C++如何发送与接收Kafka消息

C++传值、传址、传引用的区别和选择小结

C++如何实现sha256算法

C语言中的断言函数assert详解

C++之assert推荐用法及注意事项

Qt中connect()函数及用法详解

深入解读C++ 内联函数inline|nullptr

vscode远程连接服务器(免密登录+远程开发)

C++实现LRU缓存的操作方法

使用C语言生成图片的base64编码的代码实现

C语言strcat函数详解：字符串追加的利器

C++之thread_local变量的一些用法

c++栈内存和堆内存的基本使用小结

C++11标准库互斥锁 <mutex> 详解

C++实现字符串元音字母反转的两种方法

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道