// main.cu 用GPU初始化一个数组

// to run: nvcc main.cu -o main; ./main

#include <iostream>
#include <cmath>
#include "cuda_runtime.h"

#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, const char *file, int line, bool abort=true)
{
    if (code != cudaSuccess)
    {
        fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
        if (abort) exit(code);
    }
}


// 你的在GPU上运行的函数，叫做kernel，用 __global__ 告诉NVCC
__global__ void initArrayGridStride(float *arr, float val, int n) {
    // 计算当前线程在整个网格中的唯一全局索引 (起始索引)
    int idx = blockIdx.x * blockDim.x + threadIdx.x;

    // 计算整个网格的总线程数 (步长)
    int stride = gridDim.x * blockDim.x;

    // 使用循环初始化元素，每次跳过一个网格的宽度
    for (int i = idx; i < n; i += stride) {
        arr[i] = val;
    }
}


int main() {
    int dev = 0;
    cudaDeviceProp devProp;
    cudaGetDeviceProperties(&devProp, dev);
    std::cout << "使用GPU device " << dev << ": " << devProp.name << std::endl;
    std::cout << "SM的数量：" << devProp.multiProcessorCount << std::endl;
    std::cout << "每个线程块的共享内存大小：" << devProp.sharedMemPerBlock / 1024.0 << " KB" << std::endl;
    std::cout << "每个线程块的最大线程数：" << devProp.maxThreadsPerBlock << std::endl;
    std::cout << "每个EM的最大线程数：" << devProp.maxThreadsPerMultiProcessor << std::endl;
    std::cout << "每个SM的最大线程束数：" << devProp.maxThreadsPerMultiProcessor / 32 << std::endl;

    
    int N = 1 << 28;
    int nBytes = N * sizeof(float);
    float *d_x;
    gpuErrchk(cudaMalloc(&d_x, nBytes));
    // each kernal launch **1** grid and gridDim describle how many blocks

    dim3 initGridDim(1);
    dim3 initBlockDim(1);
    initArrayGridStride<<<initGridDim, initBlockDim>>>(d_x, 10.0, N);
    cudaDeviceSynchronize();
    gpuErrchk(cudaGetLastError());
    
    
    float *z = (float *) malloc(N * sizeof(float));
    gpuErrchk(cudaMemcpy(z, d_x, nBytes, cudaMemcpyDeviceToHost));
    // 检查执行结果
    float maxError = 0.0;
    for (int i = 0; i < N; i++) {
        maxError = std::max(maxError, abs(z[i]-10));
        if (z[i] != 10.0) {
            std::cout << "Error: z[" << i << "] = " << z[i] << std::endl;
            break;
        }
    }
    std::cout << "max error: " << maxError << std::endl;
    cudaFree(d_x);
    free(z);

    return 0;
}

CUDA 编程的奇妙之处

我发现官方推荐使用的方式叫做 stride loops. 和CPU编程时强调的内存局部性，各个线程做一大块内存不同，此stack-overflow有回答。

https://stackoverflow.com/questions/10297067/in-a-cuda-kernel-how-do-i-store-an-array-in-local-thread-memory

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。可以邮件至 [email protected]