2010-11-08から1日間の記事一覧

Performance Analysis of a Hybrid MPI/CUDA Implementation of the NAS-LU Benchmarkを読んだときのメモ

3 背景 MPI実装では、 4 NAS-LUの実装 CUDA Cで書き直した。単精度で計算した。旧世代のGPUでも計測できるように。 GPU上での繰り返し計算は250から300回。その間、host-device間のメモリ転送は無しで。 MPI通信時に、GPUからCPUにメモリ転送するが、この際…