2010-11-08から1日間の記事一覧
3 背景 MPI実装では、 4 NAS-LUの実装 CUDA Cで書き直した。 単精度で計算した。旧世代のGPUでも計測できるように。 GPU上での繰り返し計算は250から300回。その間、host-device間のメモリ転送は無しで。 MPI通信時に、GPUからCPUにメモリ転送するが、この際…
3 背景 MPI実装では、 4 NAS-LUの実装 CUDA Cで書き直した。 単精度で計算した。旧世代のGPUでも計測できるように。 GPU上での繰り返し計算は250から300回。その間、host-device間のメモリ転送は無しで。 MPI通信時に、GPUからCPUにメモリ転送するが、この際…