GPGPUはPCI Expressがボトルにネックになるから並列計算には無理、というお話しについて

複数nodeを抱えるような並列計算で、一昔前のPCクラスタや小規模PCクラスタでよくある仕様で、PCI経由でEthernetでnode間を接続してしまうと(そしてnode間にそれなりの通信量がある場合)、node間通信もボトルネックになってしまうわけで、それは速度だけ見るとGPGPUPCI Expressを介した通信速度よりも遅いわけです。両者のレイテンシとかはわかりませんが。
PCI Express2.0を16本まとめたら、理論的には8GB/s出ます。Ehternetより高速ですし、Infinibandの現行世代よりも高速ではあります。
理論値をまとめたサイトを紹介します。
主用規格通信速度比較 - LunaBiblos