终端进到装CUDA的目录C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.6\extras\demo_suite
然后输入
deviceQuery
如果报错,就加个./deviceQuery
结果如下所示:
这段信息是与 NVIDIA GeForce RTX 4090 显卡相关的设备信息。下面对每一行进行解释:
Device 0: “NVIDIA GeForce RTX 4090”: 表示设备索引为0,型号为”NVIDIA GeForce RTX 4090″的显卡。
CUDA Driver Version / Runtime Version: CUDA驱动程序版本和运行时版本分别为12.0和11.6。
CUDA Capability Major/Minor version number: 显卡的CUDA计算能力主/次版本号为8.9。
Total amount of global memory: 显存总量为24564 MBytes(25756696576字节)。
MapSMtoCores for SM 8.9 is undefined. Default to use 128 Cores/SM: 对于8.9版本的SM(Streaming Multiprocessor),128个CUDA核心/SM是默认值。
(128) Multiprocessors, (128) CUDA Cores/MP: 总共有128个多处理器(Multiprocessors),每个多处理器有128个CUDA核心。
GPU Max Clock rate: 显卡的最大时钟频率为2535 MHz(2.54 GHz)。
Memory Clock rate: 显存的时钟频率为10501 Mhz。
Memory Bus Width: 显存总线宽度为384位。
L2 Cache Size: L2缓存大小为75497472字节。
Maximum Texture Dimension Size (x,y,z): 最大纹理维度大小为1D=(131072),2D=(131072, 65536),3D=(16384, 16384, 16384)。
Maximum Layered 1D/2D Texture Size: 最大分层纹理大小为1D=(32768),2048层;2D=(32768, 32768),2048层。
Total amount of constant memory: 常量内存总量(zu为占位符)。
Total amount of shared memory per block: 每个线程块的共享内存总量(zu为占位符)。
Total number of registers available per block: 每个线程块可用的寄存器数为65536个。
Warp size: 线程束(warp)大小为32个线程。
Maximum number of threads per multiprocessor/block: 每个多处理器/线程块中的最大线程数分别为1536和1024个。
Max dimension size of a thread block/grid size: 线程块/网格的最大维度大小分别为(x,y,z)=(1024, 1024, 64)和(x,y,z)=(2147483647, 65535, 65535)。
Maximum memory pitch: 最大内存跨度(pitch)大小(zu为占位符)。
Texture alignment: 纹理内存对齐要求(zu为占位符)。
Concurrent copy and kernel execution: 是否支持并发的数据拷贝和核函数执行,这里是支持的。
Run time limit on kernels: 核函数的运行时间限制,这里是支持的。
Integrated GPU sharing Host Memory: 是否与主机内存共享,这里是不支持的。
Support host page-locked memory mapping: 是否支持主机页锁定内存映射,这里是支持的。
Alignment requirement for Surfaces: 表面(Surface)内存对齐要求,这里是支持的。
Device has ECC support: 设备是否支持ECC(Error Correcting Code)校验,这里是禁用的。
CUDA Device Driver Mode (TCC or WDDM): CUDA设备驱动程序模式,这里是WDDM(Windows显示驱动模型)。
Device supports Unified Addressing (UVA): 设备是否支持统一寻址(Unified Addressing),这里是支持的。
Device supports Compute Preemption: 设备是否支持计算抢占,这里是支持的。
Supports Cooperative Kernel Launch: 是否支持协作式核函数启动,这里是支持的。
Supports MultiDevice Co-op Kernel Launch: 是否支持多设备的协作式核函数启动,这里是不支持的。
Device PCI Domain ID / Bus ID / location ID: 设备的PCI域ID、总线ID和位置ID。
Compute Mode: 计算模式,默认是多个主机线程可同时使用::cudaSetDevice()来访问设备。
deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 12.0, CUDA Runtime Version = 11.6, NumDevs = 1, Device0 = NVIDIA GeForce RTX 4090: CUDA设备查询的结果。
Result = PASS: 查询结果通过验证。