2006年12月04日

● RoadRunnerとハイブリッド・プログラミング・モデル

●SC06でのLANL RoadRunner講演

・SC06のIBMシアターで、Los Alamos National Laboratory(LANL)のケン・コックによるRoadRunnerの講演を聞けたので、こちらも遅ればせながらそのあらましを紹介します。細かな諸元については聞き間違いもあるかもしれませんので、そのときは悪しからず。

・LANLではCell BEをアクセルレータに使うことで2007年に100GFLOPS程度を達成(いわばひよこのRoadRunner)、その後段階的にRoadRunnerを増強し2008年に1PetaFLOPSの持続性能を達成する計画です。RoadRunnerシステムは、8,640個のdual core Opteronで76テラFLOPSの性能、アクセルレータ部分は16,560個のCell BEで1.6PetaFLOPSピーク性能を予定しているクラスター・システムです。Opteron 1プロセッサー・コアにCell BE 1プロセッサーが対応する勘定です。

IBM x3755サーバー1台(8プロセッサー・コア)にアクセルレータのCell BEブレードサーバー4台(8 Cell BEプロセサー)がInfiniBand(IB)で接続され、1ラックに6台のx3755と2台のブレードセンター(ブレードセンターの14スロットに12ブレード装着)を実装します。

細かいことですが、現行のCell BEブレードサーバー QS20は厚みがダブル幅のため7ブレードしか装着できず勘定があいません。彼が間違っているか厚みがシングル幅になるのか?

・Cell BEは倍精度演算スピードを大幅に改善した後継プロセッサ(eDP)を使用しますとのことです。

・このことは同じIBM シアターで、Cell BEのチーフサイエンティストのピーター・ホフスティがCell BEの2010頃までのロードマップ(開発計画)でも話していました。

SC06のような大イベントでは各メーカーや研究機関で開発に携わっている第一人者が、気軽にというよりもむしろ積極的にアッピールするよう話す雰囲気があります。あくまでプロジェクトや製品の計画段階についての許される範囲の紹介ですがユーザーに取ってはホットな情報源です。公式な製品発表ではないので、実際の性能や時期がどうかについては、当然ですが、そのメーカーの信頼感とかいろいろな面での判断がもちろん必要!!。

・クラスター間のインターコネクションにはInfiniBand(IB)を採用します。従来自社開発のスイッチを使用していたIBMシステムとしては新しい方向が取られています。

・このとき、クラスター全体を15個のクラスター・コネクション・ユニット(CU)に分割し、CU間もIBでインターコネクトする2ステージ構造です(逆算すると1 CUは144個のx3755ノードで構成)。

・ケン・コックの説明によると、電力はx3755が約1KW/台、Cellのブレードセンターが約5KW/台、1ラックでは約16KWです。総ラック数は360ラックなので電力使用はラック合計で約5,760KWになります。地球シミュレータ(ピーク性能40TFLOPS)の電力はノード部分で約4,000KW、結合ネットワーク等を入れて約7,000KWと言われているのでRoadRunner(ピーク性能1,600TFLOPS)の電力は地球シミュレータ・クラスの大きなものになります。

・占有面積は、360ラック(地球シミュレータは770ラックなのでそのほぼ半分)なので257平方メートル、もし間に1ラック列ずつ空間を空けた場合には20mx25mを占める計算になります。

●SC06でのIBMのハイブリッド・プログラミング・モデル講演

・IBMではRoadRunnerで実行すべきアプリケーションのプログラミング労力をプログラマーから大幅に軽減するためにハイブリッド・プログラミング開発環境を構築し始めています。背景にはRoadRunnerのようなハイブリッド・クラスター・システムのプログラムを書けるプログラマーは探すのも大変だし、報酬もかなり高くなるという事情があります。

・SC06のIBMシアターでのキャサリン・クロフォード(IBMの次世代システム・ソフトウェア チーフアーキテクト)の講演によると、Cell BEのようなアクセルレータに対応した"ヘテロジニアスでマルチコアのメモリー・ハイエラーキ・システム"へのプログラミング・モデルが必要だとしています。IBMではそのための開発環境として、Cellの8個のSPU(Synergistics Processing Unit)のデータのDMA移動や効率よいダブルバッファリングなどを行うための、ハードウェア・プラットフォームに直結したData and Communication Synchronization Library (DaCS)や、Cell BEのプロセス管理、効率よいscatter/gather処理のためのデータ分割やリスト生成、リモート・エラー・ハンドリング処理などのためのAccelerator Library Framework(ALF)と呼ぶフレームワーク作りに着手しています。

・プログラマーから見るとCell BE特有のアーキテクチャ、すなわち8個のSPUを使うためのややこしい命令の記述部分をALFが肩代わりしてくれることになり、だいぶ負担が減ります。こうしてアプリケーション・プログラムは通常のクラスターシステム用にMPIで記述したものに、CellのSPUを計算カーネル演算に使うための最適化済みAcceleration libraryのコールを加えただけのもの(!?)になります。

先に紹介したセミナーで聞いたマーキュリーコンピュータシステムズ社のアプローチの方は、IBMのようにハイブリッド・プログラミングのフレームワークをじっくり作っていくというよりは、ツール・ライブラリを必要に応じてタイムリーに拡充させていくという色彩が強く感じられました。当面はニーズやそれぞれの成熟度にあわせて両方の動向を見ながらうまく利用していくことが必要に見えます。

さて基本となるCell BEの開発キットSDKですが、

・現在バージョン1.1の状態です。Cell BEのIBM チーフ・アーキテクトのピーター・ホフスティがIBMシアターでの講演で説明した内容によると、2007年にはSDK3.0になります。だれかがFortranのサポートについて質問していましたがニーズが限られているので可能性は低いということでした。もっともLANLなど一部からはFortranへの強い要望があるそうです。


このサイトの掲載内容は個人の見解であり、必ずしもIBMの立場、戦略、意見を代表するものではありません。

cheer_hpc at 08:58│Comments(0)TrackBack(0)この記事をクリップ!SC06 | 一般

トラックバックURL

コメントする

名前
URL
 
  絵文字