2010-11-01から1ヶ月間の記事一覧

CUDA by exampleを読んだときのメモ:第7章「Texture Memory」(書きかけ)

この章ではテクスチャメモリについて学ぶ。コンスタントメモリと同様、読み込み専用のメモリであり、あるケースにおいて、メモリトラフィックを減らしてパフォーマンスを向上させる。 元来はグラフィックのアプリに対してのそれであったが、数値計算にも有用…

CUDAプログラミング実践講座が発刊されました

Programming Massively Parallel Processors: A Hands-on Approachを翻訳したものです。CUDAプログラミング実践講座 ? 超並列プロセッサにおけるプログラミング手法作者: David B. Kirk,Wen-men W. Hwu,加藤諒,(株)Bスプラウト出版社/メーカー: ボーンデジ…

CUDAプログラミング実践講座:正誤表のようなもの

自分が読んで気がついたものを載せます。 6章 P98 7行目 (誤)「11に減らしたと仮定します。」→(正)「11に増やしたと仮定します」

CUDA by exampleを読んだときのメモ:第10章「Streams」(書きかけ)

ここまで、データを並列に処理することでCPUに比べて優れた性能をGPUが示すことを紹介してきた。 GPUには他の並列処理があって、それはCPUでのタスク並列に似たもの。 GPUでのタスク処理は、CPUでのそれに比べて手間がかかる/自分で陽に記述してやる必要があ…

CUDA by exampleを読んだときのメモ:第5章「Thread Cooperation」(書きかけ)

5.1 5章の目的 CUDA Cでのスレッドとは何かを学ぶ スレッド間はどうやって通信? スレッド間の同期は? 5.2 Splitting Parallel Blocks たくさんのカーネルを呼ぶ(その際の単位はブロック)ことで並列計算をしたのが前章。 CUDA Runtimeによって、カーネル…

CUDA by exampleを読んだときのメモ:第4章「Parallel Progmramming in CUDA C」(書きかけ)

4.1 4章の目的 いかにしてCUDAは並列に処理するか CUDA Cで並列codeを書いてみる 4.2 CUDA並列プログラミング __global__を入れれば動くには動くが、それだけではGPUを生かし切れていない ベクトル(一次元配列)同士の和 CPUでは具体的にこうやって処理 GPU…

CUDA by exampleを読んだときのメモ:第3章「Introduction to CUDA C」(書きかけ)

3.1 3章の目的 まずはCUDA Cで書いてみる hostでのcodeとdeviceでのcodeの違いを学ぶ hostからdeviceを走らせるには デバイスメモリの使い方 CUDAのシステム情報をとるには 3.2 Hellow world!を書いてみる Hellow world!を>なカーネルで書いてみる カーネル…

Performance Analysis of a Hybrid MPI/CUDA Implementation of the NAS-LU Benchmarkを読んだときのメモ

3 背景 MPI実装では、 4 NAS-LUの実装 CUDA Cで書き直した。 単精度で計算した。旧世代のGPUでも計測できるように。 GPU上での繰り返し計算は250から300回。その間、host-device間のメモリ転送は無しで。 MPI通信時に、GPUからCPUにメモリ転送するが、この際…

感想

GPU単体で流体計算して汎用CPU比で7倍出。host-device間の転送速度もちゃんと入れた値なのか。元論文確認

Should I Buy GPGPUs or Blue Gene?

中国のシステムがTOP500で一位になる見込みだ。これはアメリカのある部分に衝撃を与えるであろうが、それよりも本質的にに重要な部分がここからは見えてくる。 Warwick大学による論文(PDF)が私の手元にある。この論文はSC10で発表される物だ。その他、他所で…

「Should I Buy GPGPUs or Blue Gene?」のメモ(書きかけ)

最近の話題 2010年11月6日であんどうさんが紹介しているHPCwireの記事を読んだときのメモ。

GPU Acceleration of Numerical Weather Prediction. Parallel Processing Lettersを読んだ

Michalakes, J. and M. Vachharajani: GPU Acceleration of Numerical Weather Prediction. Parallel Processing Letters Vol. 18 No. 4. World Scientific. Dec. 2008. pp. 531--548. に、 気候モデルはベクトル計算機やSIMD計算に最適化されるような、粒度…