2010-01-01から1年間の記事一覧

PGI 11.0がリリースされているようです

http://www.pgroup.com/support/downloads.php CUDA Fortranのプログラミングガイドもver11.0になっている様子 http://www.pgroup.com/doc/pgicudaforug.pdf

コンピュータアーキテクチャのエッセンスを読んだときのメモ:第5章 さまざまなプロセッサと命令セット

5.1 はじめに 前章では、プログラム可能なプロセッサが用いるフェッチ-実行サイクルを説明した プロセッサが実行できる演算群に焦点を当てる これまでのコンピュータアーキテクトが選んだアプローチの説明、それぞれの利点と欠点 5.2 計算能力、便利さ、コス…

コンピュータアーキテクチャのエッセンス

基本的な事項をわかりやすく書いた本だと思います。コンピュータアーキテクチャのエッセンス (IT Architects Archiveシリーズ)作者: ダグラス・E・カマー,Douglas E. Comer,鈴木貢,中條拓伯,仲谷栄伸,並木美太郎出版社/メーカー: 翔泳社発売日: 2007/06/01メ…

並行コンピューティング技法

CUDAプログラミングに役に立つと思います。並行コンピューティング技法 ―実践マルチコア/マルチスレッドプログラミング作者: Clay Breshears,千住治郎出版社/メーカー: オライリージャパン発売日: 2009/12/21メディア: 大型本購入: 12人 クリック: 598回この…

CUDA by exampleを読んだときのメモ:第7章「Texture Memory」(書きかけ)

この章ではテクスチャメモリについて学ぶ。コンスタントメモリと同様、読み込み専用のメモリであり、あるケースにおいて、メモリトラフィックを減らしてパフォーマンスを向上させる。 元来はグラフィックのアプリに対してのそれであったが、数値計算にも有用…

CUDAプログラミング実践講座が発刊されました

Programming Massively Parallel Processors: A Hands-on Approachを翻訳したものです。CUDAプログラミング実践講座 ? 超並列プロセッサにおけるプログラミング手法作者: David B. Kirk,Wen-men W. Hwu,加藤諒,(株)Bスプラウト出版社/メーカー: ボーンデジ…

CUDAプログラミング実践講座:正誤表のようなもの

自分が読んで気がついたものを載せます。 6章 P98 7行目 (誤)「11に減らしたと仮定します。」→(正)「11に増やしたと仮定します」

CUDA by exampleを読んだときのメモ:第10章「Streams」(書きかけ)

ここまで、データを並列に処理することでCPUに比べて優れた性能をGPUが示すことを紹介してきた。 GPUには他の並列処理があって、それはCPUでのタスク並列に似たもの。 GPUでのタスク処理は、CPUでのそれに比べて手間がかかる/自分で陽に記述してやる必要があ…

CUDA by exampleを読んだときのメモ:第5章「Thread Cooperation」(書きかけ)

5.1 5章の目的 CUDA Cでのスレッドとは何かを学ぶ スレッド間はどうやって通信? スレッド間の同期は? 5.2 Splitting Parallel Blocks たくさんのカーネルを呼ぶ(その際の単位はブロック)ことで並列計算をしたのが前章。 CUDA Runtimeによって、カーネル…

CUDA by exampleを読んだときのメモ:第4章「Parallel Progmramming in CUDA C」(書きかけ)

4.1 4章の目的 いかにしてCUDAは並列に処理するか CUDA Cで並列codeを書いてみる 4.2 CUDA並列プログラミング __global__を入れれば動くには動くが、それだけではGPUを生かし切れていない ベクトル(一次元配列)同士の和 CPUでは具体的にこうやって処理 GPU…

CUDA by exampleを読んだときのメモ:第3章「Introduction to CUDA C」(書きかけ)

3.1 3章の目的 まずはCUDA Cで書いてみる hostでのcodeとdeviceでのcodeの違いを学ぶ hostからdeviceを走らせるには デバイスメモリの使い方 CUDAのシステム情報をとるには 3.2 Hellow world!を書いてみる Hellow world!を>なカーネルで書いてみる カーネル…

Performance Analysis of a Hybrid MPI/CUDA Implementation of the NAS-LU Benchmarkを読んだときのメモ

3 背景 MPI実装では、 4 NAS-LUの実装 CUDA Cで書き直した。 単精度で計算した。旧世代のGPUでも計測できるように。 GPU上での繰り返し計算は250から300回。その間、host-device間のメモリ転送は無しで。 MPI通信時に、GPUからCPUにメモリ転送するが、この際…

感想

GPU単体で流体計算して汎用CPU比で7倍出。host-device間の転送速度もちゃんと入れた値なのか。元論文確認

Should I Buy GPGPUs or Blue Gene?

中国のシステムがTOP500で一位になる見込みだ。これはアメリカのある部分に衝撃を与えるであろうが、それよりも本質的にに重要な部分がここからは見えてくる。 Warwick大学による論文(PDF)が私の手元にある。この論文はSC10で発表される物だ。その他、他所で…

「Should I Buy GPGPUs or Blue Gene?」のメモ(書きかけ)

最近の話題 2010年11月6日であんどうさんが紹介しているHPCwireの記事を読んだときのメモ。

GPU Acceleration of Numerical Weather Prediction. Parallel Processing Lettersを読んだ

Michalakes, J. and M. Vachharajani: GPU Acceleration of Numerical Weather Prediction. Parallel Processing Letters Vol. 18 No. 4. World Scientific. Dec. 2008. pp. 531--548. に、 気候モデルはベクトル計算機やSIMD計算に最適化されるような、粒度…

NVIDIA Parallel Nsight

NVIDIA Parallel Nsightは、CUDA Cのデバッガ。NVIDIA Parallel Nsightを導入してみた « Satoshi OHSHIMA’s websiteや、これからの並列計算のためのGPGPU連載講座(IV) 特別編CUDAプログラミングWindows編(pdf)に詳しい。 CUDA Cに対応するが、CUDA Fortranに…

Nvidia CUDA C Best Practice Guide

Nvidia CUDA C Best Practice Guideを読む際には、先にAppendix A. Recommendations and Best Practicesに目を通しておいてから読んだ方がいいと思います。 A.1 Overall Performance Optimization Strategies A.2 High-Priority Recommendations A.3 Medium-…

タイトル通り、実例が多くて良い教科書です

CUDA by Example: An Introduction to General-Purpose GPU Programmingを購入しました。 実例が多いので、読みやすく理解しやすい。 各章ごとに概要とまとめが書かれており、読み始めまたは復習するときに便利。 CUDA by Example: An Introduction to Gener…

Kindle

kindleだと$19.59と安い。

CUDA Fortranが便利すぎる件

このblogのエントリで、Fortranの人がCUDAを使うには、というテーマのそれがいくつかあります。 結論:お金払ってでもCUDA Fortranは買い(ただし、CUDAの教科書が読める程度にはCの知識必要) サブスクリプションまで払うと14万とかになりますが、Fortranの…

2004年のPCクラスタでの通信性能(書きかけ)

MPIライブラリの調査と性能の計測 わかりやすい記事。計測方法にはちょっと疑問を感じる点はあります。10Gって実際の所どうなのよ - t_azu’s blogにてリンクさせて頂いた資料等と比較するとおもしろい。

GTX480 bandwidthtest

Running on...... device 0:GeForce GTX 480 Quick Mode Host to Device Bandwidth for Pageable memory . Transfer Size (Bytes) Bandwidth(MB/s) 33554432 5267.5 Quick Mode Device to Host Bandwidth for Pageable memory . Transfer Size (Bytes) Bandw…

nbody

nbodyで単精度と倍精度比較したいんだけど、最新のCUDA SDKはfp64オプションがないみたいだ。さて。

GTX480 devicequery

Device 0: "GeForce GTX 480" CUDA Driver Version: 3.10 CUDA Runtime Version: 3.10 CUDA Capability Major revision number: 2 CUDA Capability Minor revision number: 0 Total amount of global memory: 1610285056 bytes Number of multiprocessors: 1…

GTX480をfedora10に

GTX480届きました。ドライバはnvidiaのサイトで検索したら普通に出てきたもので問題ありませんでした。 Linux x64 (AMD64/EM64T) Display Driver バージョン: 256.35 Certified リリース日: 2010.06.22 オペレーティングシステム: Linux 64-bit

HPCで利用されるX86系プロセッサの特徴のまとめ@HCPテクノロジーズ

そんなに簡単に言い切れるのかしら、と言う記述もありますが(ちょっと批判的に読むのが良いかもしれません)、明確な記述がとても良いと思います。HPCテクノロジーズのこれら文書にはいつも勉強させていただいています。 HPCで利用されるX86系プロセッサの…

GTX480注文

ぽちっと注文しました。リファレンスカードならどれを買ってもそう大差はないと思うので、玄人志向のそれにしました。

GTX480の倍精度についてわかりやすく

【GPGPU】くだすれCUDAスレpert3【NVIDIA】 http://pc12.2ch.net/test/read.cgi/tech/1271587710/ のレス272あたりからの流れがわかりやすく、おもしろい流れだったので以下に引用。自分メモのため、一部編集してあります。 272 名前:デフォルトの名無しさん[…

試用版を試用後、正規版を購入した際には

http://www.softek.co.jp/SPG/Pgi/keyissue.html