予定通りにBlackwell登場…… 但しHopper/Grace Hopperの後継となるGPGPUは予想より少し上だが、予想を大きくは超えない。
tomshardware.comの記事である。
発表されたのはB200となる。これはチップレット構成で2つのダイを1つに繋いだクラスタコア製品である。これらは1つのGPUとして認識され10TB/s NVIDIA High Bandwidth Interfaceを介して完全に1つの製品として繋がっている。それもあって半導体として見ると凄く巨大である。
1つのパッケージモジュールの中に2080億(2ダイなので1ダイ辺り1040億)ものトランジスタを内包しているらしい。
VRAMはHBM3e 192GBを搭載し最大8TB/s(24GB×8ch=192GB、ch辺り1TB/sの帯域幅と推定)のピークレートで接続される。
これほど大きくなったのは、プロセスノードがTSMC N4P(4NP)でAda LovelaceのN4(4N)からさほど変化していないからということのようだ。だから、元々大型だったHopper世代よりも大きくなってしまい。歩留まりを保つために2つのダイを連結する形になったようだ。
ということは、製品の消費電力が膨大になることは……後述する。
演算性能はFP4(4bit浮動小数点演算・1/8精度演算)で最大約20ペタフロップス(PFlops、20,000Tflops)でこれは新たに対応した低粒度演算となる。
これに基づいて
FP8は10PFlops(10,000Tflops)
FP16/BF16(Brain Float 16bit)は5PFlops(5,000Tflops)
TF32(Tensor Float 32bit)は2.5PFlops(2,500TFlops)
これは、いずれもHopperの約2.5倍となる。
尚、FP32の性能はHopperと同じ倍率と仮定するなら凡そ167~170Tflopsぐらい
Int8は10,000TOPS、FP64はTensor演算でFP32と同等の167~170Tflps、CUDAによる物理演算性能でその半分84~85Tflopsであると推定される。
が、このうちFP64(FP32は不明)の性能は、若干伸び率が下がっているらしい。ただそれでも最大90Tfliopsぐらいは出るらしい。
それから、FP4にはTransformer Engine(トランスフォーマーエンジン)の第2世代版によってモデルの自動最適化機能がある。これは粒度が低くても問題ない演算を自動的にそれに置き換えて処理することで、処理リソースをへらすものだ。FP8で処理していたFP4相当のものをFP4にすれば、演算回路は1/2になるというそれだ、以前はTF32/FP16/BF16などに対してFP8までの粒度変換をサポートしていた。それが、FP4に対応したと言うことだ。
また、FP8とFP4の中間となるFP6も演算出来るようになっている。
尚、消費電力はバリエーションによって異なるが、最上位の2チップ構成(B200×2、1 Grace CPU)のボードは最大TDPが2700Wある。この構成は上記した仕様のGPUを2つ搭載するため2倍近い性能(HopperのAI性能の4倍とされる)になる製品のようだ。
これを半分の構成にすると、2.5倍のAI性能となるらしい。
そして、HGX B200がCPUにx86(たぶん×2基)と8×B200GPUを搭載する製品で最大TDP1000W、GPUは最大18PFlops(FP4)となり、標準より10%遅いらしい。
HGX B100はx86とBlackwellを組み合わせたもので、H100との導入互換性を持つように設計されている製品。GPUのTDPは700WでH100と同じになっており、性能は14PFlopsに抑えられているようだ。
後はマルチノードの接続数と帯域だ576 GPU NVLINKをサポートし、1.8TB/s全対全二重双方向帯域を備える。さらに3.6TflopsのSharp v4 Computing On Chip(NVIDIA Sharp APIと思われる)もサポートする。帯域幅が大幅に拡張され欠点が殆ど無くなってきている。強いて言えば電力面だが、サーバーやHPCでは関係ない。
ちなみに、性能2.5倍は想像以上に大きいが、それをやったのはダイを物理的に2倍にしたからだ。元々、H100でマスクサイズは上限に達していた訳だが、じゃあ2個を連結すれば良いじゃないかとやったのが、今回になるわけだ。それで製造プロセスの最適化で1.25倍のチップを2つ連結して1.25+1.25=2.5倍にすると同時に、LLMのために命令セットをさらに粒度の荒いものにまで広げたと言うわけだ。
一般の人にとってここから重要な部分を抜き出すと、もしもこのプロセスノードがGeforceやNVIDIA RTX(Quadro)でも同じものとして使われるなら、同じダイサイズで同じノードのシングルチップでの性能向上は1.3倍未満になると推定される。もちろん、FP4/6命令などに対応する部分でそれを生かす処理では性能が大きく上がるだろうが、既存では性能向上は過去のGPUの歴史で見るとクラスタ構成にしない限り穏やかなアップになることが確定しているわけだ。
Geforce製品は2025年以降の予定なのは、きっとデスクトップやモバイル向けではノードを変更するつもりだからだと思うが……
最上位はそれに加えてデュアルチップレットのクラスタ構成になり、さらにお値段がお高くなるかも知れない。もちろんそうならない可能性もある。
話を戻すと、
残るはお値段だ。これだけはまだ分からない。あくまで発表がされただけであり、GPUのダイサイズなどを考えると、H100の4万USDに対して、10万USDになってもおかしくないと、記事では書かれている。実際にGPUの大きさは事実上倍になった。しかも、1半導体マスクサイズの上限をH100で達成する中で、今回それを2個繋げて2倍にした。即ち価格は倍以上になっても全くおかしくない。むしろ、妥当だ。
それでも、この製品は噂されていたそれほど性能は伸びないだろうという性能の想定は超えている。
即ち、決して悪いものでは無いし、LLM時代をリードする製品であることは間違いない。ただ、Tensorから先の技術を生み出すという点では、次はまだ見えてこない。即ち、今の延長線上にある最強は示したが、想像を大きく超えるほどでは無かったと言える。
まあ、互換性を維持しながら性能も上げつつ機能も増やすのは難しい。特に売れている時にそれはやりにくい。しかも、半導体の精細度も殆ど変わらないから、下手に変更すると大きく評判を落としかねない。そういう点では、FP4の対応が追加されたぐらいがバランスが良いのだろう。
最後に出荷予定だが今年の秋以降となっている。これは、元々発表予定が秋だったことから、ただ製品の表面仕様発表を早めただけということだろう。こうすることで、追いつかない生産と受注を新しい製品にも振り向けて分散させ時間を稼ぐというのもあると思われる。それぐらい、売れているということだ。そして、それぐらい生産プレッシャー(早期の納入を望む声)もでかいということを意味している。