CUDAプログラミング実践講座:正誤表のようなもの

自分が読んで気がついたものを載せます。 6章 P98 7行目 (誤)「11に減らしたと仮定します。」→(正)「11に増やしたと仮定します」

CUDA by exampleを読んだときのメモ:第10章「Streams」(書きかけ)

ここまで、データを並列に処理することでCPUに比べて優れた性能をGPUが示すことを紹介してきた。 GPUには他の並列処理があって、それはCPUでのタスク並列に似たもの。 GPUでのタスク処理は、CPUでのそれに比べて手間がかかる/自分で陽に記述してやる必要があ…

CUDA by exampleを読んだときのメモ:第5章「Thread Cooperation」(書きかけ)

5.1 5章の目的 CUDA Cでのスレッドとは何かを学ぶ スレッド間はどうやって通信? スレッド間の同期は? 5.2 Splitting Parallel Blocks たくさんのカーネルを呼ぶ(その際の単位はブロック)ことで並列計算をしたのが前章。 CUDA Runtimeによって、カーネル…

CUDA by exampleを読んだときのメモ:第4章「Parallel Progmramming in CUDA C」(書きかけ)

4.1 4章の目的 いかにしてCUDAは並列に処理するか CUDA Cで並列codeを書いてみる 4.2 CUDA並列プログラミング __global__を入れれば動くには動くが、それだけではGPUを生かし切れていない ベクトル(一次元配列)同士の和 CPUでは具体的にこうやって処理 GPU…

CUDA by exampleを読んだときのメモ:第3章「Introduction to CUDA C」(書きかけ)

3.1 3章の目的 まずはCUDA Cで書いてみる hostでのcodeとdeviceでのcodeの違いを学ぶ hostからdeviceを走らせるには デバイスメモリの使い方 CUDAのシステム情報をとるには 3.2 Hellow world!を書いてみる Hellow world!を>なカーネルで書いてみる カーネル…

Performance Analysis of a Hybrid MPI/CUDA Implementation of the NAS-LU Benchmarkを読んだときのメモ

3 背景 MPI実装では、 4 NAS-LUの実装 CUDA Cで書き直した。 単精度で計算した。旧世代のGPUでも計測できるように。 GPU上での繰り返し計算は250から300回。その間、host-device間のメモリ転送は無しで。 MPI通信時に、GPUからCPUにメモリ転送するが、この際…

感想

GPU単体で流体計算して汎用CPU比で7倍出。host-device間の転送速度もちゃんと入れた値なのか。元論文確認

Should I Buy GPGPUs or Blue Gene?

中国のシステムがTOP500で一位になる見込みだ。これはアメリカのある部分に衝撃を与えるであろうが、それよりも本質的にに重要な部分がここからは見えてくる。 Warwick大学による論文(PDF)が私の手元にある。この論文はSC10で発表される物だ。その他、他所で…

「Should I Buy GPGPUs or Blue Gene?」のメモ(書きかけ)

最近の話題 2010年11月6日であんどうさんが紹介しているHPCwireの記事を読んだときのメモ。

GPU Acceleration of Numerical Weather Prediction. Parallel Processing Lettersを読んだ

Michalakes, J. and M. Vachharajani: GPU Acceleration of Numerical Weather Prediction. Parallel Processing Letters Vol. 18 No. 4. World Scientific. Dec. 2008. pp. 531--548. に、 気候モデルはベクトル計算機やSIMD計算に最適化されるような、粒度…

NVIDIA Parallel Nsight

NVIDIA Parallel Nsightは、CUDA Cのデバッガ。NVIDIA Parallel Nsightを導入してみた « Satoshi OHSHIMA’s websiteや、これからの並列計算のためのGPGPU連載講座(IV) 特別編CUDAプログラミングWindows編(pdf)に詳しい。 CUDA Cに対応するが、CUDA Fortranに…

Nvidia CUDA C Best Practice Guide

Nvidia CUDA C Best Practice Guideを読む際には、先にAppendix A. Recommendations and Best Practicesに目を通しておいてから読んだ方がいいと思います。 A.1 Overall Performance Optimization Strategies A.2 High-Priority Recommendations A.3 Medium-…

タイトル通り、実例が多くて良い教科書です

CUDA by Example: An Introduction to General-Purpose GPU Programmingを購入しました。 実例が多いので、読みやすく理解しやすい。 各章ごとに概要とまとめが書かれており、読み始めまたは復習するときに便利。 CUDA by Example: An Introduction to Gener…

Kindle

kindleだと$19.59と安い。

CUDA Fortranが便利すぎる件

このblogのエントリで、Fortranの人がCUDAを使うには、というテーマのそれがいくつかあります。 結論:お金払ってでもCUDA Fortranは買い(ただし、CUDAの教科書が読める程度にはCの知識必要) サブスクリプションまで払うと14万とかになりますが、Fortranの…

2004年のPCクラスタでの通信性能(書きかけ)

MPIライブラリの調査と性能の計測 わかりやすい記事。計測方法にはちょっと疑問を感じる点はあります。10Gって実際の所どうなのよ - t_azu’s blogにてリンクさせて頂いた資料等と比較するとおもしろい。

GTX480 bandwidthtest

Running on...... device 0:GeForce GTX 480 Quick Mode Host to Device Bandwidth for Pageable memory . Transfer Size (Bytes) Bandwidth(MB/s) 33554432 5267.5 Quick Mode Device to Host Bandwidth for Pageable memory . Transfer Size (Bytes) Bandw…

nbody

nbodyで単精度と倍精度比較したいんだけど、最新のCUDA SDKはfp64オプションがないみたいだ。さて。

GTX480 devicequery

Device 0: "GeForce GTX 480" CUDA Driver Version: 3.10 CUDA Runtime Version: 3.10 CUDA Capability Major revision number: 2 CUDA Capability Minor revision number: 0 Total amount of global memory: 1610285056 bytes Number of multiprocessors: 1…

GTX480をfedora10に

GTX480届きました。ドライバはnvidiaのサイトで検索したら普通に出てきたもので問題ありませんでした。 Linux x64 (AMD64/EM64T) Display Driver バージョン: 256.35 Certified リリース日: 2010.06.22 オペレーティングシステム: Linux 64-bit

HPCで利用されるX86系プロセッサの特徴のまとめ@HCPテクノロジーズ

そんなに簡単に言い切れるのかしら、と言う記述もありますが(ちょっと批判的に読むのが良いかもしれません)、明確な記述がとても良いと思います。HPCテクノロジーズのこれら文書にはいつも勉強させていただいています。 HPCで利用されるX86系プロセッサの…

GTX480注文

ぽちっと注文しました。リファレンスカードならどれを買ってもそう大差はないと思うので、玄人志向のそれにしました。

GTX480の倍精度についてわかりやすく

【GPGPU】くだすれCUDAスレpert3【NVIDIA】 http://pc12.2ch.net/test/read.cgi/tech/1271587710/ のレス272あたりからの流れがわかりやすく、おもしろい流れだったので以下に引用。自分メモのため、一部編集してあります。 272 名前:デフォルトの名無しさん[…

試用版を試用後、正規版を購入した際には

http://www.softek.co.jp/SPG/Pgi/keyissue.html

CUDA Fortran製品版の購入

CUDA FortranはBEST SYSTEMSだとオンライン見積もりで10%オフ 10%オフは有り難いけど、サブスクリプションいれると14万くらいです。 PGIコンパイラ|BestSystems PGIに直接注文 円高の場合はこちらの方が割安です。自分はこちらで購入しました。領収証がPGI…

CUDA Fortranのインストール作業のメモ

15日間の評価版を入れてみることにした。その時のメモを残しておく。 ソフテックサイトからダウンロードする この中に、マニュアル類も入っている 解凍したパック内の、pgilinux-106.tar\common\index.htmを見ればたいていのことはわかる様子 common/doc/pgi…

10ギガビットイーサネットはノード間接続としてコストに見合ったものなのか

実証データもある記事がありましたので、紹介します。 Myrinet 10G|BestSystems 転送速度も気になりますが、レイテンシも気になります。 Low-Latency 10-Gigabit Ethernet product brief(pdf) 2から4μ秒とか。 カード1枚10万とかです。どうなんでしょう。…

Lee et al. (2010), Debunking the 100X GPU vs. CPU Myth: An Evaluation of Throughput Computing on CPU and GPUのメモ(書きかけ)

要点となるであろう部分だけ日本語でまとめておく。Lee et al. (2010) 1. Introduction この論文の要点は以下の3つ。 過去に多数存在した、GPUは100倍から100倍もの性能を持つと主張する論文の内容を再検討した。検討において、CPUとGPU両方を最適化した。そ…

CPU vs. GPU: AMDのゴール?

Intelの技術者がCPUとGPUを比較した論文の紹介記事を安藤さんが紹介しているのですが、そのなかにGPUはCPUの2.5倍の速度でしかないと発表するのはIntelのオウンゴールではないかという見方が一般的とあります。また、Core i7 960とGTX280を比べたのは発表時…

GPGPU関連で、読んで良かったと特に思った記事の紹介

PGI GPU用アクセラレータコンパイラ 情報サイト − GPU / GPGPU / CUDA 対応、CUDA Fortran これからの並列計算のためのGPGPU連載講座 (?) GPGPUプログラミング環境CUDA最適化編(pdf)