肥宅钓鱼网
当前位置: 首页 钓鱼百科

cuda使用共享内存(CUDA加速共享内存介绍及其应用)

时间:2023-07-03 作者: 小编 阅读量: 1 栏目名: 钓鱼百科

不同类型的内存有各自不同的特点,不过片上内存通常比板载显存要快,而寄存器又是所有存储种类中最快的。本文我们着重介绍共享内存的基础知识以及应用例子。此方式特点为定义的时候不指定大小,在调用核函数的时候将共享内存大小以输入参数的形式传入。

CUDA的存储器可以大致分为两类:

  • 板载显存(On-board memory)
  • 片上内存(On-chip memory)

其中板载显存主要包括全局内存(global memory)、本地内存(local memory)、常量内存(constant memory)、纹理内存(texture memory)等,片上内存主要包括寄存器(register)和共享内存(shared memory)。不同类型的内存有各自不同的特点,不过片上内存通常比板载显存要快,而寄存器又是所有存储种类中最快的。本文我们着重介绍共享内存的基础知识以及应用例子。


01

查看自己显卡上的共享内存信息

CUDA提供了cudaGetDeviceCount和cudaGetDeviceProperties这两个函数,分别用于获取CUDA设备数、获取CUDA设备属性,通过调用这两个函数,可以方便获取共享内存信息和其它CUDA设备信息:

//显示CUDA设备信息void show_GPU_info(void){int deviceCount;//获取CUDA设备总数cudaGetDeviceCount(&deviceCount);//分别获取每个CUDA设备的信息for(int i=0;i<deviceCount;i){//定义存储信息的结构体cudaDeviceProp devProp;//将第i个CUDA设备的信息写入结构体中cudaGetDeviceProperties(&devProp, i);std::cout << "使用GPU device " << i << ": " << devProp.name << std::endl;std::cout << "设备全局内存总量:" << devProp.totalGlobalMem / 1024 / 1024 << "MB" << std::endl;std::cout << "SM的数量:" << devProp.multiProcessorCount << std::endl;std::cout << "每个线程块的共享内存大小:" << devProp.sharedMemPerBlock / 1024.0 << " KB" << std::endl;std::cout << "每个线程块的最大线程数:" << devProp.maxThreadsPerBlock << std::endl;std::cout << "设备上一个线程块(Block)中可用的32位寄存器数量: " << devProp.regsPerBlock << std::endl;std::cout << "每个EM的最大线程数:" << devProp.maxThreadsPerMultiProcessor << std::endl;std::cout << "每个EM的最大线程束数:" << devProp.maxThreadsPerMultiProcessor / 32 << std::endl;std::cout << "设备上多处理器的数量:" << devProp.multiProcessorCount << std::endl;std::cout << "======================================================" << std::endl;}}

运行以上函数,得到共享内存信息以及其它设备信息,如下图所示,本人使用的显卡上,针对于每一个线程块,其可以使用的最大共享内存为48 KB。


02

共享内存的特性

共享内存的主要特点在于“共享”,也即同一个线程块中的所有线程都可以对这一块存储进行读写操作,所以“共享”是针对同一个线程块中所有线程而言的。一旦共享内存被定义并指定大小,系统将给所有线程块都分配相同大小的共享内存,比如定义一个大小为8 bytes的unsigned char型共享内存,那么所有线程块都会被分配一个8 bytes的unsigned char型共享内存。如下图所示:

共享内存在CUDA核函数中定义,通常有两种方式:静态方式、动态方式。

  • 静态方式定义。这种方式定义的特点是定义的同时指定大小

__global__ shared_memory_kernel(uchar *inputs, int row, int col){int x = threadIdx.xblockDim.x * blockIdx.x;//colint y = threadIdx.yblockDim.y * blockIdx.y;//rowif (x < col && y < row){__shared__ uchar s[8];//定义的同时指定大小为8 bytes,因此每个线程块都被分配8 bytes的共享内存...}}

  • 动态方式定义。此方式特点为定义的时候不指定大小,在调用核函数的时候将共享内存大小以输入参数的形式传入

__global__ shared_memory_kernel(uchar *inputs, int row, int col){int x = threadIdx.xblockDim.x * blockIdx.x;//colint y = threadIdx.yblockDim.y * blockIdx.y;//rowif (x < col && y < row){extern __shared__ uchar s[];//定义的时候不指定大小...}}void shared_memory_test(void){...//传入的第1个参数block_num为线程块总数//第2个参数thread_num为每个线程块包含的线程数//第3个参数8为共享内存大小,所以动态共享内存大小通过第3个参数传入shared_memory_kernel<<<block_num, thread_num, 8>>>(inputs, row, col);...}

需要注意:动态定义共享内存时,调用核函数传入的数值必须以字节byte为单位,所以如果定义的共享内存不是byte类型,数值必须乘以类型占用的字节数。比如要动态定义长度为8的float类型共享内存,那么传入核函数的数值为8*sizeof(float)。

shared_memory_kernel<<<block_num, thread_num, 8 * sizeof(float)>>>(inputs, row, col);


03

共享内存的应用例子

前文我们讲的数组元素规约求和算法,使用CUDA全局内存来存储数据:

CUDA加速——基于规约思想的数组元素求和

我们知道全局内存属于板载显存,而共享内存属于片上内存,因此共享内存的读写速度比全局内存快得多。在前文代码的核函数中有个for循环需要多次读写全局内存,全局内存本身就很慢,而且如果不是连续访问会更慢,因此本文我们尝试使用共享内存来代替全局内存实现前文讲的规约求和算法。

由于前文的规约算法是在不同线程块分别进行的,而共享内存又具有线程块内共享的特性,故共享内存正好适合此应用场景。

前文的规约结构

本文使用共享内存的规约结构

下面我们比较使用共享内存的核函数与前文使用全局内存的核函数:

//使用全局内存__global__ void cal_sum_ker0(float *Para, float *blocksum_cuda){int tid = blockIdx.x * blockDim.xthreadIdx.x;if(tid < N){for (int index = 1; index < blockDim.x; index = (index*2)){if (threadIdx.x % (index*2) == 0){Para[tid]= Para[tidindex];}__syncthreads();//同步,以防止归约过程中某个线程运行速度过快导致计算错误}if(threadIdx.x == 0)//整个数组相加完成后,将共享内存数组0号元素的值赋给全局内存数组0号元素blocksum_cuda[blockIdx.x] = Para[tid];}}//使用共享内存//blockIdx.x为线程块的ID号//blockDim.x每个线程块中包含的线程总个数//threadIdx.x为每个线程块中的线程ID号__global__ void cal_sum_ker(float *Para, float *blocksum_cuda){int tid = blockIdx.x * blockDim.xthreadIdx.x;if(tid < N){//动态方式定义float型共享内存extern __shared__ float s_Para[];//线程块中的每个线程负责把其对应的数据从全局内存加载到共享内存s_Para[threadIdx.x] = Para[tid];__syncthreads();//块内线程同步,等待线程块内所有线程加载数据完毕for (int index = 1; index < blockDim.x; index = (index*2)){if (threadIdx.x % (index*2) == 0){//在for循环中使用共享内存实现规约,避免频繁读写全局内存s_Para[threadIdx.x]= s_Para[threadIdx.xindex];}__syncthreads();//块内线程同步,以防止归约过程中某个线程运行速度过快导致计算错误}if(threadIdx.x == 0)//将共享内存数组0号元素的值赋给全局内存数组blocksum_cuda[blockIdx.x] = s_Para[threadIdx.x];}}

接着在测试代码中分别调用上方两个核函数。调用时指定共享内存的长度为每个线程块包含的线程数:

void cal_sum_test() {Timer_Us2 timer;//定义CPU端数组float *test_d = (float *)malloc(N * sizeof(float));for (long long i = 0; i < N; i){test_d[i] = 0.5;}dim3 sumblock(512);//设置每个线程块有512个线程dim3 sumgrid(((N%sumblock.x) ? (N/sumblock.x1) : (N/sumblock.x)));float *test_d_cuda;float *blocksum_cuda;float *blocksum_host = (float *)malloc(sizeof(float) * sumgrid.x);cudaMalloc((void **)&test_d_cuda, sizeof(float) * N);cudaMalloc((void **)&blocksum_cuda, sizeof(float) * sumgrid.x);timer.start_timer();//将数据从CPU端拷贝到GPU端cudaMemcpy(test_d_cuda, test_d, sizeof(float) * N, cudaMemcpyHostToDevice);//调用使用全局内存规约的核函数cal_sum_ker0 << < sumgrid, sumblock>> > (test_d_cuda, blocksum_cuda);//将所有线程块的规约结果从GPU端拷贝到CPU端cudaMemcpy(blocksum_host, blocksum_cuda, sizeof(float) * sumgrid.x, cudaMemcpyDeviceToHost);//在CPU端对所有线程块的规约求和结果做串行求和double sum = 0.0;for(int i = 0; i < sumgrid.x; i){sum= blocksum_host[i];}timer.stop_timer("GPU time (global memory):");cout << " GPU result (global memory) = " << sum << endl;//显示GPU端结果//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////timer.start_timer();cudaMemcpy(test_d_cuda, test_d, sizeof(float) * N, cudaMemcpyHostToDevice);//调用使用共享内存规约的核函数,sumblock.x为每个线程块包含的线程数,sumblock.x * sizeof(float)就是传入的共享内存字节数cal_sum_ker << < sumgrid, sumblock, sumblock.x * sizeof(float) >> > (test_d_cuda, blocksum_cuda);cudaMemcpy(blocksum_host, blocksum_cuda, sizeof(float) * sumgrid.x, cudaMemcpyDeviceToHost);sum = 0.0;for(int i = 0; i < sumgrid.x; i){sum= blocksum_host[i];}timer.stop_timer("GPU time (shared memory):");cout << " GPU result (shared memory) = " << sum << endl;//显示GPU端结果cudaFree(test_d_cuda);cudaFree(blocksum_cuda);free(blocksum_host);free(test_d);}

运行结果如下,可以看到使用共享内存之后,耗时减少了,这是因为共享内存的读写效率比全局内存高。

    推荐阅读
  • 枣庄工业经济实现开门红(经济实现转型跨越)

    枣庄市坚定不移推动新旧动能转换,经济综合实力显著提升。全市地区生产总值从2012年的1092.1亿元增加到2021年的1951.6亿元。全面摆脱了“一黑一灰”的城市形象,闯出一条老工业基地浴火重生的“枣庄路径”。枣庄始终把改革作为关键一招,加快流程再造、制度创新。民生持续改善、群众获得感明显提升。枣庄千方百计保障和改善民生,扎实推动共同富裕,民生支出占一般公共预算支出的比重稳步提高,2021年达到77.4%。生态显著好转、绿水青山底色更靓。

  • 观赏螺入缸前注意什么(龙宫螺好不好养)

    同时,龙宫螺适应温度能力强,如果单独养这一种观赏螺,10度-35度都不用担心死亡,特别省心,但是想让它快速生长,或者大量繁殖,温度最好在25度到28度。首先要说明一点,龙宫螺是雌雄异体的,那怎么判断性别呢?最简单的办法就是,雄性的龙宫螺右侧的触角是卷曲的,伸不直。这么看来,龙宫螺30天的繁殖周期,每胎1-2只,也不太会出现瞬间爆缸的情况。从新入缸到现在,一直害羞,遮遮掩掩的,昨天终于拍到龙宫螺长什么样了。

  • 一加7怎么滚动截屏 一加8t手机怎么滚动截屏

    一加7是一加公司旗下一款手机。手机配置高通骁龙855处理器,运行Android9系统,采用后置三摄像头。一加科技由刘作虎担任CEO,和一群热爱产品的年轻人共同运营。一加科技凭借自己在硬件和做工上的优势,为用户选择顶级元器件与配置的同时,在系统等软件方面与全球最大的Android第三方编译团队CyanogenMod深度合作,并且开放系统底层权限,为用户提供刷机的自由。

  • 到了预产期还没有生孩子预兆(有了产兆不一定会生)

    预产期当天出生的宝宝只有5%,也就是讲100个宝宝里面只有5个宝宝会在预产期当天分娩。宝宝一般会在破水后72小时分娩出。其他的产兆比如不规则下腹痛,见红,下坠感都是不可靠的,都只是提示先兆临产,而不是临产。先兆临产只是提示临产可能,但是也有可能不发展为临产。知识创造价值,专业产科医生为你的孕期保驾护航,每日更新孕期科普,不定期孕期疑惑解答。专业推算孕周,评估胎儿体重,规化产检。

  • 电视墙瓷砖贴法(操作方法)

    下面希望有你要的答案,我们一起来看看吧!电视墙瓷砖贴法湿贴法。湿贴法是以前最常见的铺贴方法之一,是一种在墙面上架钢筋网片,再往里灌水泥砂浆固定的旧工艺。这种方法很容易造成墙面污染,空鼓,脱落等现象。干贴法是使用干粉与粘结剂作为原料,然后用水泥砂浆将墙面铺。这种方法比较简单,先将墙面砖利用俩接的方法进行。干挂法不需要用砂浆进行铺贴,只要用金属挂件将瓷砖直接挂上。

  • 钉钉投屏后手机可以退出吗(钉钉投屏后手机可以退出)

    以下内容希望对你有帮助!钉钉是阿里巴巴集团专为中国企业打造的免费沟通和协同的多端平台,提供PC版,Web版和手机版,支持手机和电脑间文件互传。钉钉因中国企业而生,帮助中国企业通过系统化的解决方案(微应用),全方位提升中国企业沟通和协同效率。

  • 面试用不用给面试官发简历(求职者面试迟到)

    关注“职道而行”,求职面试、升职加薪、人事相处,一起进步!当这个帖子发布后,就该事件形成了明显的3种观点和阵营:一是支持求职者;二是支持面试官;三是持中肯的态度,认为这件事情中双方都有问题。

  • 关于字音字形的笔记(字音字形字义知识梳理)

    字音字形字义知识梳理初中语文字音•字形•字义中考对字音考核的要求是:读准字音考生复习时要根据汉语拼音规则认读汉字,能够准确地选择注音正确或错误的一项,能分辨常见的字音误读类型,如社会因素干扰字、形似误读字、多音误读字等中。

  • 深度解析咬文嚼字(每日咬文嚼字辛苦)

    深度解析咬文嚼字2022年08月07日来源:《咬文嚼字》杂志作者:陈健“辛苦”,人们常挂在嘴边。不过,不难看出,在先秦时期,“辛”和“苦”就已经开始表示味道了。但是纯粹的辛辣和苦涩是非常不好吃的。他的意思就是单纯的“酸咸辛苦”之类的味道,如果离开了“甜”的调和,是无法成为真正的美味的。这是说吴光新近登临君位,与人民“同辛共苦”,负担起建设的大业。“辛”字的情况就比较复杂了。

  • 大小腿粗怎么减(大小腿粗怎么减呢)

    一般有两种情况:一种就是皮下脂肪厚,还有一种情况就是肌肉骨骼粗壮。针对小腿的腓肠肌肥厚,一般采用A型肉毒毒素注射,差不多半年左右注射一次,效果还是不错的。那如果是以皮下脂肪肥厚为主的,最佳方式当然是健身加饮食控制。这种效果就比较确切可靠,但是因为创面比较大,恢复时间比较长,而且术后可能会出现局部的凹凸不平、皮下积液等一些并发症。所以我们建议脂肪抽吸的话,最好由经验的医生做比较好一些。