2010-01-01から1年間の記事一覧

CUDA Fortran製品版の購入

CUDA FortranはBEST SYSTEMSだとオンライン見積もりで10%オフ 10%オフは有り難いけど、サブスクリプションいれると14万くらいです。 PGIコンパイラ|BestSystems PGIに直接注文 円高の場合はこちらの方が割安です。自分はこちらで購入しました。領収証がPGI…

CUDA Fortranのインストール作業のメモ

15日間の評価版を入れてみることにした。その時のメモを残しておく。 ソフテックサイトからダウンロードする この中に、マニュアル類も入っている 解凍したパック内の、pgilinux-106.tar\common\index.htmを見ればたいていのことはわかる様子 common/doc/pgi…

10ギガビットイーサネットはノード間接続としてコストに見合ったものなのか

実証データもある記事がありましたので、紹介します。 Myrinet 10G|BestSystems 転送速度も気になりますが、レイテンシも気になります。 Low-Latency 10-Gigabit Ethernet product brief(pdf) 2から4μ秒とか。 カード1枚10万とかです。どうなんでしょう。…

Lee et al. (2010), Debunking the 100X GPU vs. CPU Myth: An Evaluation of Throughput Computing on CPU and GPUのメモ(書きかけ)

要点となるであろう部分だけ日本語でまとめておく。Lee et al. (2010) 1. Introduction この論文の要点は以下の3つ。 過去に多数存在した、GPUは100倍から100倍もの性能を持つと主張する論文の内容を再検討した。検討において、CPUとGPU両方を最適化した。そ…

CPU vs. GPU: AMDのゴール?

Intelの技術者がCPUとGPUを比較した論文の紹介記事を安藤さんが紹介しているのですが、そのなかにGPUはCPUの2.5倍の速度でしかないと発表するのはIntelのオウンゴールではないかという見方が一般的とあります。また、Core i7 960とGTX280を比べたのは発表時…

GPGPU関連で、読んで良かったと特に思った記事の紹介

PGI GPU用アクセラレータコンパイラ 情報サイト − GPU / GPGPU / CUDA 対応、CUDA Fortran これからの並列計算のためのGPGPU連載講座 (?) GPGPUプログラミング環境CUDA最適化編(pdf)

有限体積法の教科書その2

数値流体工学。その1は→有限体積法の教科書 - t_azuの日記 冗長な説明を廃して、要点をすっきりと書いている本。有限差分法の基礎知識を持つ人が、有限体積法の基礎知識を短時間で身につけるのに適していると思います。

ASCII.technologiesのGPGPU特集記事から抜粋されています

ASCII.jp:GPGPUスペシャリスト・フィックスターズを知る! うまく言えばタイアップ、見方を変えればちょうちん記事、かなあ。 記事の内容自体は好きです。まだ2ページしか掲載されていないようですが、まだまだ続くようです。

GPGPUのボトルネックは解消出来るか?

PCI Express2.0転送速度の遅さが、GPGPUを否定する材料によく使われています。 PCI Express 3.0規格リリースは2010年Q2に延期、対応製品は2011年 そんなわけで、早期の登場が期待されるPCI Express3.0ですが、来年以降になるそうです。 1レーンあたりの速度…

STREAMベンチマークでGPGPUのメモリバンド幅を計測

GPGPUのメモリバンド幅といえば、CUDA SDKに含まれるbandwidthtestがあります。簡単に計測する手段として良いものなのですが、CPU計算のそれでは、STREAMベンチマークが一般的でした。 NVIDIA GPUの実効メモリ帯域(STREAMベンチマーク) STREAMベンチマーク…

CUDAはSPMDなのかSIMDなのか(書きかけ)

頭の中を整理します。 MPIのように、SPMD(1つのプログラムで、複数のデータを扱う)プログラミングモデルである。全てのデータに対して、同じプログラムだが、命令が同じとは限らない。データ毎に命令が異なる場合もあり(ex. if文)。 それでいて、SM(St…

FORTRANでの並列計算:同じ人が著者に入っている教科書を読む(書きかけ)

著者が同じ本を読むことは、理解を助ける有効な手段だと思います。 並列計算法入門 並列計算法入門 (計算力学レクチャーシリーズ)作者: 樫山和男,牛島省,西村直志,日本計算工学会出版社/メーカー: 丸善発売日: 2003/09/01メディア: 単行本購入: 2人 クリック…

GPGPUはPCI Expressがボトルにネックになるから並列計算には無理、というお話しについて

複数nodeを抱えるような並列計算で、一昔前のPCクラスタや小規模PCクラスタでよくある仕様で、PCI経由でEthernetでnode間を接続してしまうと(そしてnode間にそれなりの通信量がある場合)、node間通信もボトルネックになってしまうわけで、それは速度だけ見…

FORTRANの人がGPGPUを使って性能を出すために必要なこと

FORTRANからCUDAを呼ぶ2にあるやり方で、あと残り二つになりました。 CUDAで(FORTRANに比べて)性能が出せそうな(且つ、FORTRANでボトルネックとなっているならなお良い)部分をCUDA化し、GPGPUで計算させる CPUとGPGPUの間での通信量を出来る限り少なく…

CUDA本の充実を願う

フィックスターズの人にCUDAの解説書を書いて欲しい、と思う今日この頃。OpenCL本だけじゃなくて。 アスキドットテクノロジーズの解説記事が良くまとまっていたので。もう一回載せます。ASCII .technologies ( アスキードットテクノロジーズ ) 2009年 12月号…

FortranからCUDAを呼ぶその2:CUDAをFortranから呼び出してみる

CUDAを呼び出してみます。題材とさせて貰うのは、GPGPU 勉強会 - CUDA Samplesの配列の足し算/最低限 GPGPUです。 vecadd_v1.cu→「vecadd_v1_CUDA.cu, vecadd_v1_main.f90」へと書き換えました。以下code例です。 vecadd_v1_CUDA.cu #include <stdio.h> // 配列の足し</stdio.h>…

FortranからCUDAを呼ぶその1:C言語をFortranから呼び出してみる

CUDAを呼び出す前に、C言語を呼び出してみます。題材とさせて貰うのは、GPGPU 勉強会 - CUDA Samplesの配列の足し算/C言語による例です。 vecadd.c→「vecadd_C.c, vecadd_main.f90」へと書き換えました。以下code例です。 vecadd_C.c #include <stdio.h> // 配列の足</stdio.h>…

CUDAに将来はあるのか

方法その1をとる、と書いておきながら何ですが。これは要するにnvidia(�Fermi)の将来でもあるのですが。Fortranの人が一生懸命(?)CUDA勉強しても無駄(?)になるかもしれません。 あんまり将来のこと考えすぎても何も出来なくなるのですが、無理のない…

Fortranの人のためのCUDA

FortranからCUDAへの置き換え|株式会社EASIZE NVIDIAのCUDAアーキテクチャGPUにおけるFortranサポート

Fortranの人がCUDAの恩恵を受けるには

3つの方法があります。 真面目に(?)CUDA Cで書く CUDA化されたライブラリをFortranから呼ぶ PGI Fortranコンパイラを使う コンパイラ指示行挿入によるプログラミング(PGIアクセラレータ) 明示的にCUDA APIを使った、いわゆるCUDA Fortran どれもこれも実…

SofTekのPGI Fortranのサイトから

わかりやすかったので紹介。 マルチコアCPU上の並列化手法、その並列性能と問題点 メインメモリとCPU間のスループットが実効性能に与える影響については、以下のサイトも詳しく解説しています。 HPCテクノロジーズ/STREAMベンチマークテストによるXeon(R) (N…

GTX240bandwidthTest

そしてロープロファイルGT240のbandwidthTestも。 Device 0: GeForce GT 240 Quick Mode Host to Device Bandwidth, 1 Device(s), Paged memory Transfer Size (Bytes) Bandwidth(MB/s) 33554432 5298.8 Device to Host Bandwidth, 1 Device(s), Paged memor…

ロープロファイルのGT240のdevicequery

そしてdeviceQueryを。 Device 0: "GeForce GT 240" CUDA Driver Version: 3.0 CUDA Runtime Version: 3.0 CUDA Capability Major revision number: 1 CUDA Capability Minor revision number: 2 Total amount of global memory: 1073545216 bytes Number of…

ロープロファイルのGT240でCUDA

LEADTEK ビデオカード WinFast GT240 1GB DDR3 LP WFGT240-1GD3LP出版社/メーカー: LEADTEK発売日: 2009/11/18メディア: Personal Computersこの商品を含むブログを見るロープロファイルのGT240でもCUDAを使うことにしました。基本、ロープロファイルである…

GT240のbandwidthTest

$ bandwidthTest Running on...... device 0:GeForce GT 240 Quick Mode Host to Device Bandwidth for Pageable memory. Transfer Size (Bytes) Bandwidth(MB/s) 33554432 5256.1 Quick Mode Device to Host Bandwidth for Pageable memory. Transfer Size …

CUDAの勉強でよく行くウェブサイトまとめ

お世話になっている/いたサイトです。順不同。 CUDA全般 技術ブログ - トータル・ディスクロージャ・サイト(事実をありのままに) NVIDIAフォーラム Learn More about CUDA - NVIDIA GPGPU 勉強会 - FrontPage tips : tips/02.プログラミングなど/GPGPU/CUD…

GT240のdevicequery

195.30 BETAの元でのGT240のdevicequery結果です。 Device 0: "GeForce GT 240" CUDA Driver Version: 3.0 CUDA Runtime Version: 2.30 CUDA Capability Major revision number: 1 CUDA Capability Minor revision number: 2 Total amount of global memory:…

GT240でCUDA

諸事情でGTX260をCUDAに使えなくなってしまい、急遽GT240をCUDAの勉強用に使うことになりました。Compute capabilityが1.2なので、倍精度計算は出来ませんがしょうがないです。 linux x86_64用のドライバですが、nvidiaのサイトには用意されていないようで、…

GPUを2枚差す場合の注意

2枚のGPGPUを差し、1枚を表画用に、もう1枚をCUDAでの計算用にとする場合の設定について。xorg.confにてどちらのGPUを表画に使うかを指定する記述が必要です。 lspci -v |less としてBUSidを調べて、xorg.confに Busid "PCI:2:0:0" Driver "nvidia" などと記…

fortranの人がはじめるC言語2

やさしく学べるC言語入門―基礎から数値計算入門まで (UNIX & Information Science)作者: 皆本晃弥出版社/メーカー: サイエンス社発売日: 2004/09/01メディア: 単行本購入: 1人 クリック: 6回この商品を含むブログ (1件) を見る説明はあまり丁寧じゃない印象…