CUDA存储器

高性能CUDA应用设计与开发第五章阅读笔记

GPU存储器层次结构

这里写图片描述

在GPU高速计算的过程中,GPU的性能极大受限于存储器的带宽
只有流多处理器的寄存器带宽满足流多处理器全速运转需求

不同类型GPU存储器的带宽如下

寄存器约8T/s
共享内存约1.6T/s
全局内存约而0.1 - 0.2T/s
内存映射约0.01T/s (主机内存映射到GPU显存)

实现程序的高性能必须在流多处理器内实现数据重用
因为经常访问的数据会被放入高速缓存之中
从而减少了从全局内存中读取数据的次数

L1缓存基于空间重用而非像L2的时间
L1缓存并不影响全局内存的写操作,这些操作会越过L1
L1缓存用于两种作用
1.动态缓存
(1)记录线程的局部数据结构,如线程栈(栈最多占用1KB的内存)
(2)局域内存(用于存放从寄存器溢出的局部数据)
2.用于共享内存
广播数据
condition1: 一致访问 (同一个线程块内的线程均访问同一地址)
condition2: 若使用的指针是const类型的
编译器将会识别出一致访问并生成LDU指令访问L1缓存,实现数据广播

对自动变量的操作会访问到局域内存
所谓自动变量就是设备端代码中申请的,不包含device,shared,constant限定符的变量
通常自动变量会存放于寄存器中,但以下情况除外

这里写图片描述

如图,当申请一块共享内存时,共享内存会被组织成32/16个bank(早期的GPU是16个)
不同的线程访问同一个bank会产生bank冲突,会被串行执行
早期double双精度数据也会引起bank冲突,因为他是分成两个32位数据放于共享内存中

在共享内存中填充空数据,可以避免bank冲突
如 __share__ tile[32][33]
这样即可使得一个warp访问同一列数据时发生错位,使得避免了bank冲突

若一个wrap内的多个线程同时访问同一个字,则硬件上只产生一次共享内存的读取操作

若共享内存用于线程块内的wrap通信,则共享内存声明时必须使用volatile前缀
避免误读缓存数据带来的错误 (否则,如数据被缓存到寄存器中,将读入旧数据)

L1的一致访问其实也可以多播,不过当数据过多时,广播数据或许会被挤出缓存
这时候常量内存仍可利用

全局内存的读取方式

缓存读取
内存逻辑首先从L1缓存中寻找数据,接着是L2缓存,若都没找到再从全局内存读取
全局内存的读取粒度其中一次读取128字节
这个应该是考虑到减少IO请求的次数,可能存在冗余读取的情况
这个时候内存对齐是十分重要的东西 (cudaMalloc申请的空间保证了至少256字节的对齐)
非缓存读取
当读取大量数据且又不存在于连续地址时,建议使用nvcc的命令行参数 -Xptxas-dlcm=gc关闭L1缓存
这时SM不会从L1中寻找数据,全局内存的读取粒度由128变为32减少冗余读取