Bulldozer (マイクロアーキテクチャ)

ウィキペディアから

Bulldozerマイクロアーキテクチャ(ブルドーザー マイクロアーキテクチャ)とは、アドバンスト・マイクロ・デバイセズによって開発されたマイクロプロセッサマイクロアーキテクチャである。2011年10月12日に正式発表され[1]AMD FXプロセッサとして製品化された。

概要 生産時期, 販売者 ...
Bulldozer
生産時期 2011年10月から
販売者 AMD
設計者 AMD
生産者 GF
プロセスルール 32nm
アーキテクチャ x86
マイクロアーキテクチャ Bulldozer
命令セット AMD64
コア数 4から16
(スレッド数:4から16)
ソケット Socket AM3+
Socket C32
Socket G34
コードネーム Zambezi
Zurich
Valencia
Interlagos
前世代プロセッサ K10
次世代プロセッサ Piledriver
L1キャッシュ コアあたりデータ16KB
モジュールあたり命令64KB
L2キャッシュ モジュールあたり最大2MB
L3キャッシュ 最大16MB
ブランド名 AMD FX
Opteron
テンプレートを表示
閉じる

Bulldozerは、K10マイクロアーキテクチャの次世代CPUコアに与えられたコードネームのひとつで、TDPは10Wから125Wを目標としていた。このアーキテクチャはゼロから完全に新しく作られた物で、AMDは、HPCアプリケーションに Bulldozerコアを用いる事で、1Wあたりの性能を劇的に向上させる事ができると主張している。

概要

AMDによると、BulldozerベースCPUはグローバルファウンドリーズ32nm SOIプロセス技術に基づき、マルチタスク性能のために賛否が分かれるDECのアプローチを再利用した。プレスノートによれば、「パフォーマンスをスケーリングするためにチップ上で簡単に複製できる非常にコンパクトで、ユニット数の多い設計を提供するためコンピューターリソースの専占と共有のバランスを取った」[2]。言い換えれば、マルチコア設計に自然に忍び寄る「冗長」要素のいくつかを排除することにより、AMDは、より少ない電力を使用しながらハードウェア機能をより有効に活用することを望んでいた。 HKMG(High-k/Metal Gate)を使用して32nmSOI上に構築されたBulldozerベースの実装は、サーバーとデスクトップの両方で2011年10月に到着した。サーバーセグメントにはコードネームInterlagos(Socket G34用16コア)デュアルチップとコードネームValencia(Socket C32用4、6、または8コア)シングルチップOpteronプロセッサが含まれていたが一方、Zambezi(4、6、および8コア)は、Socket AM3+のデスクトップを対象としていた[3][4]。BulldozerはAMDがK8プロセッサを発売した2003年以来AMDプロセッサアーキテクチャ初の主要な再設計であり、1つの256ビットFPUに組み合わせることができる2つの128ビットFMA対応FPUも備えている。この設計には、それぞれ4つのパイプラインを持つ2つの整数クラスターが付属している(フェッチ/デコードステージは共有される)。Bulldozerはまた、新しいアーキテクチャに共有L2キャッシュを導入した。 AMDはこの設計を「モジュール」と呼んでいる。 16コアプロセッサの設計では、これらの「モジュール」のうち8つを備えているが[5]、オペレーティングシステムは各「モジュール」を2つの論理コアとして認識する。 モジュラーアーキテクチャは、マルチスレッド対応共有L2キャッシュと同時マルチスレッディングを使用するFlexFPUで構成されている。 2つの仮想同時スレッドが単一の物理コアのリソースを共有するIntelのハイパースレッディングとは対照的に、各物理整数コアはモジュールごとに2つシングルスレッドである[6][7]

特徴

Thumb
2つの整数クラスターを示す, 完全なBulldozerモジュールのブロック図

2つの整数演算ユニット、1つのFPU、1つの命令デコーダ、1つのL2キャッシュなどからなるモジュール(Bulldozerコア)を基本単位として構成されるクラスタードアーキテクチャとなる[8]。命令キャッシュからデコーダまでのフロントエンドと、FPU及びL2キャッシュが2つの整数演算ユニットで共有されており、2つの整数演算ユニットと2つのL1データキャッシュのみがBulldozerコア毎(ごと)に独立している構造になっている。そのため、(整数のみ)完全なデュアルコアと(FPUとその他が)SMTと中間的な構造である。その他特徴的な点として、浮動小数点の積和算をサポートしている。1サイクルに従来命令換算で、4つの128ビット演算を行えるため、モジュール単位でPhenom II 1コアと比較して2倍のスループットを得られる。整数演算装置が2/3の性能で、IPCK10より下がるため、クロックを上げて性能を補う、近年のAMDには珍しいスピードデーモン寄りのアーキテクチャとなり、K10と比べてクロックが25%ほど上昇している。

L2キャッシュは1モジュールにつき2MBとなる。デスクトップ向けの Zambezi は、L3は8MBで、メモリDDR3-1866デュアルチャネルに対応する。

Thumb
8つの整数クラスターを持つ4モジュール設計のブロック図

液体ヘリウムを使用したオーバークロックを行った結果、8.461GHzを達成し、ギネス世界記録となった[9][10]

アーキテクチャの詳細

要約
視点

Bulldozerコア

Bulldozerはプロセッサのある一部は2つのスレッドの間で共有され、またある一部はスレッドごとに固有である技法、「クラスタード・マルチスレッディング(CMT)」を駆使する。型破りなマルチスレッディングへのそのようなアプローチの以前の例は、2005年のサン・マイクロシステムズUltraSPARC T1プロセッサにまで遡ることができる。 ハードウェアの複雑さと機能性の観点から、ブルドーザーCMTモジュールは、整数演算能力においてデュアルコアプロセッサと、浮動小数点演算能力の点においては、同じCMTモジュールで実行されている両方のスレッドの浮動小数点命令でコードが飽和しているかどうかそして、FPUが128ビットまたは256ビットの浮動小数点演算を実行しているかどうかに応じて、シングルコアまたはハンディキャップのあるデュアルコアプロセッサのいずれかと同等である。この理由は、つまり同じモジュール内に、2つの整数コアごとに、128ビットFMAC実行ユニットの対からなる単一のFPUが存在するためである。

CMTは、ある意味でSMTと単純だが、類似した設計哲学である; どちらの設計も、実行ユニットを効率的に利用しようとする; どちらの方法でも、2つのスレッドが一部の実行パイプラインをめぐって競合すると、1つかそれ以上のスレッドのパフォーマンスが低下する。専用の整数コアにより、Bulldozerファミリーモジュールは完全に整数であるか、整数と浮動小数点の計算が混在するコードのセクションで、ほぼデュアルコアの、デュアルスレッドプロセッサのように動作した; ただし、SMTは共有浮動小数点パイプラインを使用するため、モジュールは、浮動小数点命令で飽和スレッドのペアについてシングルコアのデュアルスレッドSMTプロセッサ(SMT2)と同様に振る舞う(これらの最後の2つの比較はどちらもプロセッサがそれぞれ、整数単位と浮動小数点単位で、等幅で同等能力のある実行コアを持っていることを前提としている)。

CMTとSMTはどちらも整数と浮動小数点コードをスレッドのペアで実行しているときに最大の効果を発揮する。CMTは両方共に整数コードから成るスレッドのペアで作業している間、最高の効果を維持し、一方SMTの下では、整数実行ユニットの競合により一方または両方のスレッドのパフォーマンスが低下する。CMTの欠点はシングルスレッドの場合にアイドル状態の整数実行ユニットの数が増えることである。シングルスレッドの場合、CMTはモジュール内の整数実行ユニットの最大半分を使用するように制限されているが、SMTはそのような制限を課していない。2つのCMTコアと同じ幅で高速な整数回路を備えた大規模なSMTコアは、理論上、シングルスレッドの場合に瞬間的に最大2倍の整数パフォーマンスを発揮する(一般的なコード全体としてより現実的には、ポラックの法則のスピードアップ係数、つまりパフォーマンスの約40%の向上を推定する) 。

CMTプロセッサと一般的なSMTプロセッサは、スレッドのペア間でL2キャッシュを効率的に共有して使用する点で類似している。

  • モジュールは、2つの「従来の」x86アウトオブオーダー処理コアのカップリングで構成されている。処理コアは、パイプラインの初期段階(例えば L1命令(キャッシュ)、フェッチ、デコードなど)、FPU、およびモジュールの残りの部分と共にL2キャッシュを共有する。
    • 各モジュールには、次の独立したハードウェアリソースがある[11][12]
    • 1コアあたり16KBの4ウェイL1データ(キャッシュ)(ウェイ予測)および1モジュールあたり2ウェイ64KBのL1命令(キャッシュ)、2つのコアのそれぞれに1ウェイ[13][14][15]
    • 1モジュールごとに2MBのL2キャッシュ(2つの整数コア間で共有)
    • Write Coalescing(合体) Cache(W.C.C.)[16]は、BulldozerマイクロアーキテクチャにおいてL2キャッシュの一部である特別なキャッシュである。 1モジュール内の両方のL1データキャッシュからのストアは、W.C.C.を通過し、そこでバッファリングおよび合体される。W.C.C.のタスクは、L2キャッシュへの書き込み数を減らすことである。
    • 2つの専用整数コア
      • –それぞれの整数コアに2つのALUと2つのAGUが含まれており、1コアごとの1クロックごとに合計4つの独立した算術演算とメモリ操作が可能である。
      • –整数スケジューラと実行パイプラインを複製することは、2つのスレッドのそれぞれに専用のハードウェアが提供され、マルチスレッドの整数負荷の性能が2倍になる。
      • –モジュールの2番目の整数コアは、Bulldozerモジュールのダイを約12%増加させ、チップレベルでダイスペース全体の約5%が追加される[17]
    • モジュールごとに2つの対称128ビットFMAC(融合積和演算機能つき)浮動小数点パイプラインは整数コアの1つがAVX命令と2つの対称x87/MMX/SSE対応浮動小数点パイプラインをディスパッチして、SSE2非最適化ソフトウェアとの下位互換性を確保する場合、1つの大きな256ビット幅のユニットに統合できる。各FMACユニットは、可変レイテンシーでの除算および平方根演算も可能である。
  • 存在するすべてのモジュールは、高度なデュアルチャネルメモリサブシステム(IMC – 統合メモリコントローラー)と同様にL3キャッシュを共有する。
  • 1つのモジュールには、(2MBの共有L2キャッシュを含む)オロチダイ上の30.9mm²のエリアに2億1300万個のトランジスタがある[18]
  • Bulldozerのパイプラインの深さは(同様にPiledriverとSteamrollerも)、前身のK10コアの12サイクルと比較して、20サイクルである[19]

より長いパイプラインにより、Bulldozerファミリーのプロセッサは、前身のK10と比較してはるかに高いクロック周波数を達成することができた。これにより周波数とスループットが向上したが、パイプラインが長くなると、レイテンシが増加し、分岐予測の予測ミスによるペナルティが増加した。

  • Bulldozer整数コアの幅(4 = (2ALU + 2AGU))は、K10コアの幅(6 = (3ALU + 3AGU))よりもいくらか狭くなっている。BobcatとJaguarも4つのワイド整数コアを使用したが、まだより軽い実行ユニットで:1つのALU、1つの単純なALU、1つのロードAGU、1つのストアAGUである[20]

Jaguar、K10、およびBulldozerコアの(命令)発行幅(およびサイクルごとの命令実行ピーク)は、それぞれ2、3、および4である。これにより、BulldozerはJaguar/Bobcatと比較してよりスーパースカラーのデザインになった。しかしながら、(第1世代の設計には改良と最適化がないことに加えて)K10のコアがやや広いため、Bulldozerアーキテクチャは通常、前身のK10と比較してやや低いIPCで実行された。BulldozerファミリーのIPCがPhenom IIなどのK10プロセッサのIPCを明らかに上回り始めたのは、PiledriverとSteamrollerで行われた改良が行われるまではなかった。

分岐予測器

  • 2レベルの分岐ターゲットバッファ(BTB)[21]
  • 条件文用ハイブリッド予測器
  • 間接予測器

拡張命令セット

  • 256ビット浮動小数点演算、およびSSE4.14.2AESCLMULをサポートするIntelのAdvanced Vector Extensions(AVX)命令セットのサポート, 及びAMDが提案した将来性ある128ビット命令セット(XOPFMA4、およびF16C)[22], ただしこれは、AMDによって以前に提案されたAVXコーディングスキームとの互換性があるSSE5命令セットと同じ機能を備えている。
  • 第4世代Bulldozer(Excavator)はAVX2命令セットをサポートする。

プロセス技術とクロック周波数

  • 第1世代グローバルファウンドリーズHigh-Kメタルゲート(HKMG)によって実装される11層メタルレイヤー32nm SOIプロセス
  • TurboCore2パフォーマンスブーストはTDPの制限内で、すべてのスレッドがアクティブな場合(ほとんどのワークロードの場合)にクロック周波数を最大500MHzまで、スレッドの半分がアクティブな場合に最大1GHzまでクロック周波数を上げる[23]
  • チップは0.775〜1.425Vで動作し、3.6GHz以上のクロック周波数を実現する[24]
  • TDP: 最小25ワット〜最大140ワット

キャッシュとメモリ・インタフェース

  • 最大8MBのL3は同じシリコンダイ上のすべてのコア間で共有される(デスクトップセグメントの4コアの場合は8MB、サーバーセグメントの8コアの場合は16MB)、それぞれ2MBの4つのサブキャッシュに分割され、1.1125Vで2.2GHz動作が可能である[25]
  • DDR3-1866までのネイティブDDR3メモリをサポート[26]
  • デスクトップおよびサーバー/ワークステーション用Opteron 42xx "Valencia"はデュアルチャネルDDR3統合メモリコントローラー[27]; サーバー/ワークステーション用Opteron 62xx "Interlagos"はクワッドチャネルDDR3統合メモリコントローラー[28]である
  • AMDはチャネルごとにDDR3-1600の2つのDIMMのサポートを主張する。シングルチャンネル上のDDR3-1866の2つのDIMMは、1600にダウンクロックされる。

I/Oおよびソケット・インターフェース

  • HyperTransportテクノロジー リビジョン3.1(3.2GHz、6.4GT/s、25.6GB/sそして16ビット幅のリンク)[2010年3月にSocket G34のOpteronプラットホームにて「Magny-Cours」が、そして2010年6月Socket C32のOpteronプラットホームにて「Lisbon」がHY-D1リビジョンになって最初に実装された。]
  • Socket AM3+ (AM3r2)
    • 942ピン, DDR3サポートのみ
    • (マザーボードメーカーの選択にもよるが、もしBIOSアップデートが提供されている場合[29][30])、Socket AM3マザーボードとの下位互換性を維持する。しかしながら、これはAMDによって公式にサポートされていない; AM3+ マザーボードは、AM3プロセッサとの下位互換性がある[31]
  • サーバーセグメントには、既存のSocket G34(LGA1974)とSocket C32(LGA1207)が使用される。

OSの対応

旧来のどのアーキテクチャとも異なる構成なのでIntel HTTの時と同じようにOSスケジューラの対応が必要となる場合がある。

Windows

Windowsのスケジューラは空いているコアに対してスレッドを割り振るが、対策前のWindowsでは「Bulldozerコア」の特性(フロントエンドやFPUの共有)を考慮していないため、同一モジュール内かどうかを考慮せずにスレッドを割り振る。このために空いているモジュールがあるにもかかわらず、同一モジュールにスレッドを割り振ってフロントエンドやFPUがボトルネックになり性能低下が起こる事があった。

マイクロソフト2012年1月にKB2645594とKB2646060のパッチを公開しこの問題に対応した[32]。KB2645594はBulldozerコア1基を物理1コア論理2コアと見立てるように修正するパッチで、KB2646060はKB2645594の副作用でBulldozerコアが頻繁にC6ステートに入ってしまい,結果,マルチスレッド化があまり進んでいない環境で性能が低下する問題を修正するパッチである。

このパッチ群により性能低下への対応は行われたが、対策後のWindowsからは 物理コア数=Bulldozerコア数のSMTタイプCPUとして扱われるため、本来の性能を発揮しているかどうかは未知数である。

AMDはWindows 8でBulldozerへの最適化がなされるようマイクロソフトと協力しているという。

Linux

1モジュールあたり1コア2スレッドのSMTプロセッサとして扱われる。

虚偽広告訴訟

2015年11月、AMDはBulldozerチップの仕様を不実表示したとしてカリフォルニア消費者法的救済法および不公正競争法に基づいて訴えられた。10月26日にカリフォルニア北部地区連邦地方裁判所に提起された集団訴訟では、各Bulldozerモジュールは実際には真のデュアルコア設計ではなく、いくつかのデュアルコア特性を備えた単一のCPUコアであると主張していた[33]

2019年8月、AMDは12.1百万ドルで訴訟を和解することに合意した[34][35]

製品一覧

デスクトップ向け

Zambezi
さらに見る ブランド, 型番 ...
Zambezi
ブランド 型番 CPU TDP
(W)
対応メモリ HT
(MHz)
モジュール数
(スレッド数)
クロック (GHz) キャッシュ (MB)
定格 ターボ L2 L3
AMD FX 8170 4 (8) 3.94.5 8 8 125 DDR3-1866 2200
8150 3.64.2
8140 3.24.1 95
8120 3.14.0 125 2000
8100 2.83.7 95
6200 3 (6) 3.84.1 6 125 2200
6130 3.63.9 2000
6120 3.54.1 95
6100 3.33.9
4170 2 (4) 4.24.3 4 125 2200
4150 4.04.1
4130 3.83.9 4 2000
4120 3.94.1 8 95
4100 3.63.8
閉じる

サーバー向け

Interlagos
さらに見る ブランド, 型番 ...
Interlagos
ブランド 型番 CPU TDP
(W)
対応メモリ HT
(MHz)
モジュール数
(スレッド数)
クロック (GHz) キャッシュ (MB)
定格 ターボ L2 L3
Opteron 6291 SE 8 (16) 3.04.0 16 16 140 DDR3-1600 3200
6287 SE 2.83.5
6284 SE 2.73.4
6282 SE 2.6 3.3
6278 2.4 115
6276 2.3 3.2
6275
6274 2.23.1
6272 2.13.0
6262 HE 1.62.9 85
6238 6 (12) 2.63.2 12 115
6234 2.43.0
6230 HE 2.23.1 85
6220 4 (8) 3.03.6 8 115
6212 2.63.2
6204 2 (4) 3.3N/A 4
閉じる
Valencia
さらに見る ブランド, 型番 ...
Valencia
ブランド 型番 CPU TDP
(W)
対応メモリ HT
(MHz)
モジュール数
(スレッド数)
クロック (GHz) キャッシュ (MB)
定格 ターボ L2 L3
Opteron 4284 4 (8) 3.03.7 8 8 95 DDR3-1600 3200
4280 2.83.5
4276 HE 2.63.6 65
4274 HE 2.53.5
42MX HE 2.23.3
4256 EE 1.62.8 35
4240 3 (6) 3.43.8 6 95
4238 3.33.7
4234 3.13.5
4226 2.73.1
4230 HE 2.93.7 65
4228 HE 2.83.6
42DX EE 2 (4) 2.23.3 4 40
閉じる
Zurich
さらに見る ブランド, 型番 ...
Zurich
ブランド 型番 CPU TDP
(W)
対応メモリ HT
(MHz)
モジュール数
(スレッド数)
クロック (GHz) キャッシュ (MB)
定格 ターボ L2 L3
Opteron 3280 4 (8) 2.43.5 8 8 65 DDR3-1866 2600
3260 HE 2 (4) 2.73.7 4 4 45
3250 HE 2.53.5
閉じる

後継

Piledriver

Piledriverは二世代目のBulldozer系統として2012年に発表された。IPCと動作周波数の向上が図られた。

Steamroller

Steamrollerは三世代目のBulldozer系統として2014年に発表された。

Excavator

Excavatorは四世代目のBulldozer系統として2015年に発表された。AVX2などの命令がサポートされた。

脚注

関連項目

Wikiwand - on

Seamless Wikipedia browsing. On steroids.