2010-11-08 Performance Analysis of a Hybrid MPI/CUDA Implementation of the NAS-LU Benchmarkを読んだときのメモ 3 背景 MPI実装では、 4 NAS-LUの実装 CUDA Cで書き直した。 単精度で計算した。旧世代のGPUでも計測できるように。 GPU上での繰り返し計算は250から300回。その間、host-device間のメモリ転送は無しで。 MPI通信時に、GPUからCPUにメモリ転送するが、この際にも注意を払っている。データ量を最小限に?(ちょっと読み取れない) GPU内でのメモリアクセスパターンにも注意。 関連 http://www2.warwick.ac.uk/fac/sci/dcs/research/pcav/publications/pubs/ukpew-gpu-wavefronts.pdf https://ktn.innovateuk.org/c/document_library/get_file?p_l_id=111051&folderId=1050771&name=DLFE-10338.pdf