Intel、ターボ時最大6GHzに達する第13世代Coreを年明けに限定数発売 ……2倍になるまで15年間の進化と5年間の停滞が生み出した暴食キング(噂)。
PC Watchの昨日の記事である。
これは、噂されていた水冷~液体窒素冷却などを使ったOCで8-10GHz台を狙えるプロセッサーという奴だ。その代わり、消費電力が猛烈でMTPの上となるExtreme Performance Mode(EPM)と呼称されているターボモードを実装しているとされる。
ちなみに、3GHzが登場したのは、2002年11月(Pentium 4 3.06GHz-Northwood、HT搭載)である。まだ店頭での登場はしていないので、6GHzまでに掛かる時間は20年2ヶ月~3ヶ月ぐらいになるだろう。1.5GHzのPentium 4(Willamete)から3GHzは2年数ヶ月だったので、10倍の時間が掛かったことになる。まあ、Pentium 4まではクロックアップの耐性が高い時代だったので、水冷や液体窒素を使えば5GHz~8GHzぐらいまでいけたのだが、Intelの実際の目標は5GHz~10GHzだった。
それが出来なかったから、投機的マルチスレッディングの改良と命令セットの追加、そしてAMDが主導したマルチコアへと舵を切ることになったわけだ。そして、クロックスピードを上げると熱が出るという諸刃の剣は今も健在であり、x86陣営があまり学習していないことを示している。
当時はシングルコアで当時のPentium4のブロックダイヤグラムを見ると今より、単純にステージ数が多い。
また、特徴的なのがALUでLoad / Store用のAGUがそれぞれ1器で合計2つに対して、ALUは2器(標準/Simple ALU)から3器(+混合/Complex ALU)の構成で作られているのだが、標準ALUが対(つい)構造相当になっており他のポートに比べると倍速クロック相当(DDR、立ち上がりと立ち下がりで2回処理を回す構造)で動くというトンデモ設計だった。これは、ALUのターゲット分岐がクラッシュしやすかったからである。要は、投機処理で適当に流したデータが、結果待ちのデータで差し戻されたり、自己矛盾でやり直しを命じられることがしばしばあったのだ。
ちなみに、FPUは2つでSSEとFP MOVEが分離されていたが、至って普通である。今ではALUもFPUもポート数は似たり寄ったりになっている中で、当時はx87やSSEの演算工程(命令セット)が進化の過程にあり、まだまだ弱かった。その代わりと言ってはなんだが、FPUの強化は後から行われ始めたこともあり、ある程度投機処理に最適化されていた。(ちなみに、x87はi386DXが出るまでオプションで、CPUの全ての製品に完全統合されたのはiDX4※またはPentiumからである)
一方で、ALU側は古い構造の命令も多く、前後の順序や送るポートを誤れば結果が出ないどころか、先に演算した結果のいくつかを破棄して最初から演算しなければいけないものも多い。その最も影響が強い部分だったALUを倍速化したのだ。3.06GHzだとSimple ALUの動作は6.12GHz相当(3.06GHz-DDR)であった。しかし、だからといって2倍高速化するわけではない。何故なら、ALUだけを2車線にしてもその前の道路が1車線なら、通る車は1台に過ぎないからだ。それでも、ないよりはマシだっただろうし、SMT(Hyper-Threading)などを使う時にはある程度意味があったのかもしれない。
※i486DX2にはSX2というx87 FPUレスモデルがあったが、DX4からは無くなった。FPUの演算を多用する時代に入ったのはMMXが登場してからで、浮動小数点演算で本格的に使われるようになったのはAMDの3D Now!、そしてそれを追ってPentium IIIのSSE{(internet*) Streaming SIMD Extentions}が登場してからである。*SSE発表時には頭にインターネットの名称が付いていた。これは、Intel WebOutfitterのプロモーションに合わせる意味もあったのだろう。
当時のPentium4は今ほどじゃないが爆熱だったので、バッテリーがショボかった時代のモバイルには使われなくなった。
そこでモバイルではPentium III(P6の最終品であるTualatin)の発展をさせたBanias/DothanというPentium Mが息づくことになる。これが、後のCore Duo、Core 2 Duoへと発展し、Core Duoでは投機的マルチスレッディングの構造を見直し、フロントの分岐で可能な限り演算の予測を行い動的順序で行うものと、順次(本来の順番)で行うものを仕訳け、それらのうち、バスビット枠の上限以下のものを結合して演算ユニットに運ぶμOP Fusion(マイクロオペレーションの融合)が導入された。
これによって、クロック周波数が1/2でも同じコア数で性能が2倍以上という現在のCore iの原型が産まれることになる。
尚、Core iはフロント部にメモリーコントローラーとPCIホスト(DMI,QPI)を統合し、FSBを事実上廃止、キャッシュ階層の強化、GPUの統合、ベクトル命令ポート準備のためのFPUやフロントエンド、バックエンドの拡張をしたものである。もちろん、クロック周波数も少しずつ上がっていったが、第2世代のSandy Bridgeですら、2700K/3970Xのベース3.5GHz(ターボが3.9GHz/4.0GHz)である。Pentium 4はベースで3.8GHzまで到達している。
さて、演算の最大性能は、今と当時でどう違うのか?ご存じだろうか?
Pentium 4 3.00GHz(Prescott/FSB 800MHz)で考えると当時は内部バスが64bitでクロック等倍、外部バスが64bitで800MHz(DDR-400)だったわけだ。これを逆算すると、内側のデータ幅は最大で192Gbit/s(24GB/s)で、メモリーバスは51.2Gbit/s(6.4GB/s)だったわけだ。そして、演算の数え方も簡単で最大値(ピークレート)はSSE2の処理能力をクロックで掛ければ答えが出るのだ。尚、Pentium4では実効値がかなり下になる。
ちなみに、今のIntel Core iは内部のバスがどうなっているかははっきりしない。今はバスもQPI/DMIベースでの転送回数クロック数値に変わり、中の構造も発熱などを防ぐために処理する要件に応じた仕組みを取り入れているからだ。全体が単一のバス幅にはなっていないのである。
大まかにはAVX-512が使えるため、バス幅は最低でも256bitから512bitまたはそれ以上になっていると考えられ、それに合わせてμOP Fusion処理が行われる。即ち1回のクロックで演算ポートに送られる命令が256bit命令長までサポートするポートなら、最大で32bit×8つ分に相当する結合が出来る。さらにそれを処理する装置が1つのCPU内に複数あるため、同時にμOPは複数発行され、それをそれぞれ別々のポートに送ることになる。
即ち、1クロックで送信できる命令の数は、単精度換算(32bit)でμOP内単位だと最低でも4~8倍以上、μOPの並列数だと2倍~6倍ぐらいにはなっているだろう。それにコアの数が、倍数で足されるわけだ。同じクロック周波数でそれだけの差が出るわけだ。
尚、こちらも失敗せずにそれだけの結果が出るわけでは無いので、あくまで理論上の話であるが、Pentium4はもっと酷かった。強いて言えば、Pentium4時代は32bit時代、今は64bit時代で単純に比較出来ないというのに注意が必要だ。
このように、
Intelはクロックが上げられなくなってからこうやって、性能を引き上げてきたわけだが、その大半は、Core 2~Nehalem/Arrandale/Clarkdale(最初のCore i)に確立されたものである。その後は、そこで築いたベースに機能拡張を続けるためのAVXを載せて、順調にいくはずだったのだが、10nmで5年も全体のメジャー更新を行えなかった上に、AVX-512Fが思った以上に性能を上げる効果を持たず、お熱を上げたことで、停滞することになった。それだけでは済まず、拡張した命令やフロントの投機構造にも欠陥が見つかるようになる。サイドチャンネル攻撃ができる事が分かったのだ。
そのため、一部の命令セットは破棄される事態にまでなりつつ、細かな構造転換まで行われた。そして、その間AMDなどが追い上げてきた。
その間に出来る手段はクロック周波数を上げることとコア数を増やすことである。徐々にエアフローやクロックゲーティングに頼った周波数拡大やコア数拡大にシフトしていく。今ではMTPでたった数秒~1分程度の最大クロックを競っているほどだ。(ちなみに、今のCPUは外気温が高かったり、エアフローが悪いと最大クロックがそもそも出ないでゲーティングが掛かる)
それの集大成として、ついに発熱電力無視の6GHzに突入することになった訳だ。話の最初に戻ると、ESロットではこれよりまだもう少しオーバークロックが出来て推奨される熱枠は345W~350Wに達するらしい。それが、EPMだとか……。実際にこの噂通りの品なのかは定かではないが、限定品故に今の熱枠を超える可能性は高いだろう。それだけ、熱耐性が高いものを選別する必要があったと見るべきである。
尚、世界は今、電気料金や住宅、賃貸の価格が急騰しているので、多くの消費者や企業が望んでいるのはこっちじゃなくなりつつあり、むしろ、Pentium 4に対するPentium Mのような製品を切望している人の方がきっと沢山いるはずだ。
尚、Raptor Lake-S+dGPUを導入するなら、電源は最低でも1000W級にしておいた方が無難だろう。特にタワー側のPCを入れるならば。
省スペースなどの場合は、これから冬に向かうので、次の夏が来るまで分からないかも知れないが、ケースからの冷却性能がなるべく高くなるように気を使った方が良い。まあ、今はサーマルダイオードがCPUの中に複数搭載されており、それに合わせたクロックゲーティングが優秀なので熱暴走も殆どしない。だから、マザーボードが短命に終わって冷却不足に気が付くということがないようにしなければいけない。
今の時代、熱損傷で最初に壊れるのはCPUよりも、マザーボードや電源のコンデンサー、HDDなどのパーツ内コンデンサーである。これらは、CPUやGPUのようにファンやヒートシンクが付けられないから、筐体内部の熱を筐体外に上手に排出できないと、へたるのが早くなるから気を付けて欲しい。