Performance Analysis of a Hybrid MPI/CUDA Implementation of the NAS-LU Benchmarkを読んだときのメモ

3 背景

MPI実装では、

4 NAS-LUの実装

CUDA Cで書き直した。
単精度で計算した。旧世代のGPUでも計測できるように。
GPU上での繰り返し計算は250から300回。その間、host-device間のメモリ転送は無しで。
MPI通信時に、GPUからCPUにメモリ転送するが、この際にも注意を払っている。データ量を最小限に?(ちょっと読み取れない)
GPU内でのメモリアクセスパターンにも注意。