2010-11-01から1ヶ月間の記事一覧
この章ではテクスチャメモリについて学ぶ。コンスタントメモリと同様、読み込み専用のメモリであり、あるケースにおいて、メモリトラフィックを減らしてパフォーマンスを向上させる。 元来はグラフィックのアプリに対してのそれであったが、数値計算にも有用…
Programming Massively Parallel Processors: A Hands-on Approachを翻訳したものです。CUDAプログラミング実践講座 ? 超並列プロセッサにおけるプログラミング手法作者: David B. Kirk,Wen-men W. Hwu,加藤諒,(株)Bスプラウト出版社/メーカー: ボーンデジ…
自分が読んで気がついたものを載せます。 6章 P98 7行目 (誤)「11に減らしたと仮定します。」→(正)「11に増やしたと仮定します」
ここまで、データを並列に処理することでCPUに比べて優れた性能をGPUが示すことを紹介してきた。 GPUには他の並列処理があって、それはCPUでのタスク並列に似たもの。 GPUでのタスク処理は、CPUでのそれに比べて手間がかかる/自分で陽に記述してやる必要があ…
5.1 5章の目的 CUDA Cでのスレッドとは何かを学ぶ スレッド間はどうやって通信? スレッド間の同期は? 5.2 Splitting Parallel Blocks たくさんのカーネルを呼ぶ(その際の単位はブロック)ことで並列計算をしたのが前章。 CUDA Runtimeによって、カーネル…
4.1 4章の目的 いかにしてCUDAは並列に処理するか CUDA Cで並列codeを書いてみる 4.2 CUDA並列プログラミング __global__を入れれば動くには動くが、それだけではGPUを生かし切れていない ベクトル(一次元配列)同士の和 CPUでは具体的にこうやって処理 GPU…
3.1 3章の目的 まずはCUDA Cで書いてみる hostでのcodeとdeviceでのcodeの違いを学ぶ hostからdeviceを走らせるには デバイスメモリの使い方 CUDAのシステム情報をとるには 3.2 Hellow world!を書いてみる Hellow world!を>なカーネルで書いてみる カーネル…
3 背景 MPI実装では、 4 NAS-LUの実装 CUDA Cで書き直した。 単精度で計算した。旧世代のGPUでも計測できるように。 GPU上での繰り返し計算は250から300回。その間、host-device間のメモリ転送は無しで。 MPI通信時に、GPUからCPUにメモリ転送するが、この際…
GPU単体で流体計算して汎用CPU比で7倍出。host-device間の転送速度もちゃんと入れた値なのか。元論文確認
中国のシステムがTOP500で一位になる見込みだ。これはアメリカのある部分に衝撃を与えるであろうが、それよりも本質的にに重要な部分がここからは見えてくる。 Warwick大学による論文(PDF)が私の手元にある。この論文はSC10で発表される物だ。その他、他所で…
最近の話題 2010年11月6日であんどうさんが紹介しているHPCwireの記事を読んだときのメモ。
Michalakes, J. and M. Vachharajani: GPU Acceleration of Numerical Weather Prediction. Parallel Processing Letters Vol. 18 No. 4. World Scientific. Dec. 2008. pp. 531--548. に、 気候モデルはベクトル計算機やSIMD計算に最適化されるような、粒度…