トップQs
タイムライン
チャット
視点

FLOPS

コンピュータの性能指標 ウィキペディアから

Remove ads

FLOPS(フロップス、Floating-point Operations Per Second)はコンピュータ性能指標の一つ。

概要 換算表, 接頭辞 ...

概要

FLoating point number Operations Per Secondの名称が示す通り、1秒間に浮動小数点演算が何回できるかの指標値ひいては性能値の事を指す。

ハードウェアの仕様として用いられるのは理論値であるが、ベンチマークソフトなどの計測から導き出される計測値は、理論値からは原則的に下がる。その為、理論値だけでなく、「理論的に算出された値の何%で実際のプログラムが動作するか」ということが重要になる(実測値)。実際の値が理論値に近いほど、より効率的なコンピュータだと考えられるからである。

パーソナルコンピュータ(以下PCと表記)向けのCPUGPUメーカーは、計算ノードとしては単一のノードとなるので通常理論値で発表する(理論値がほぼそのまま実効値となる)が、一般的に並列方式スーパーコンピュータ(以下スパコンと表記)では多数の計算ノードのクラスタとして構築されるため、実際の計算能力を理論値に近づけるには高度な運用能力が必要であり、理論値ではなく LINPACK ベンチマークでの実測値がよく使われている。

2016年前後の時点において、普及している家庭用のPCのCPUはGFLOPS、スパコンの世界1位はPFLOPSの単位であるが、ムーアの法則にそって高速化が進んでおり、2018年に並列度1億でLINPACK性能値はEFLOPSの単位に到達すると予想されている[1]2000年頃からの理論値ではPCとスパコンの比例値は、おおよそ1万倍の差で推移している。

2024年3月現在、世界最高速のスパコンはFrontierで1.102EFLOPS[2]。分散コンピューティングでは、Folding@homeが一時的に2.4EFLOPSを突破した[3]

Remove ads

代表的なハードウェアの浮動小数点数演算能力

要約
視点

PC (Intel)

さらに見る 名称, コア数 ...

Core 2 Duoより1クロックで SSE で加算と乗算が計算できる[9]ようになり128ビット幅だと倍精度で 4 FLOPS/クロック。Sandy Bridgeより搭載した Intel AVXは256ビット幅なので8FLOPS/クロック。Intel FMA融合積和命令により1命令で積と和の2演算ができるので16FLOPS/クロック[10]。単精度だと、これらの演算回数は2倍[11]。Atomは1クロックで1つのSSE加算命令が、2クロックで1つのSSE乗算命令が実行できる[12]ため、合計すると倍精度で3FLOPS/クロックとなる。

サーバ (Intel)

さらに見る 名称, コア数 ...

PC/Server (AMD)

さらに見る 名称, コア数 ...

Bulldozer は1モジュールにつき2つの128ビット積和演算器があり、倍精度は2つのFMA命令を同時実行することにより 8 FLOPS/Cycle。

ARM

さらに見る 名称, コア数 ...
  • NetWalker PC-Z1: CPU 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(同VFP)

ARM NEON はCortex-A15までは倍精度が扱えなく、単精度のみ[13]。ARM NEON は 128ビット幅で単精度だと 4 FLOPS/Cycle だが、Cortex-A15 は FMA があるので 8 FLOPS/Cycle。

倍精度は、Cortex-A9 は VFPv3 により、2 cycle で足し算2回、乗算1回、合計3演算できるので、1.5 FLOPS/Cycle。Cortex-A15 は VFPv4 により、1 cycle で1回 FMA が計算できるので、2 FLOPS/Cycle。Cortex-A57より、NEONでも倍精度が扱えるようになる。

ゲーム機

※いずれも単精度(FP32)

スーパーコンピュータ

さらに見る 名称, 理論値/実測値 ...

分散コンピューティング

さらに見る 名称, 日付 ...

グラフィックスカード

単精度の積和算を 2 FLOPS/Clock で行える。

NVIDIA GeForce

  • 8600 GTS: 92.8GFLOPS / 139GFLOPS(積和算 / 積和算、積算合計)
  • 8800 GT: 336GFLOPS / 504GFLOPS(積和算 / 積和算、積算合計)
  • 9600 GT: 208GFLOPS / 312GFLOPS(積和算 / 積和算、積算合計)
  • 9800 GTX+: 470GFLOPS / 705GFLOPS(積和算 / 積和算、積算合計)
  • GTX 280: 622GFLOPS / 933GFLOPS(積和算 / 積和算、積算合計)[30][31]
さらに見る 名称, コア数 ...

AMD Radeon

さらに見る 名称, コア数 ...

ハイエンドでは倍精度(fp64)は 0.5 FLOPS/Cycle であるが、ミドルレンジ以下は 0.125 FLOPS/Cycle[42] であったり、倍精度の計算が出来なかったりする。

Intel

さらに見る 名称, EU数 ...

HD Graphicsの各EUは4-way SIMDの演算器を備えており、1命令で4並列の単精度浮動小数点演算が可能である。Sandy Bridgeより前の世代では1クロックでEUあたり1つの加算もしくは乗算命令を実行可能で、4FLOPS/EU。Sandy Bridge世代では1クロックでEUあたり1つのFMA命令を実行可能で、8FLOPS/EU。Ivy Bridge世代以降は1クロックでEUあたり2つのFMA命令を実行可能で、16FLOPS/EUとなる。

Qualcomm Snapdragon

さらに見る 名称, ALU数 ...

Appleシリコン

さらに見る チップセット, GPU コア / クラスタ ...

Texas Instruments OMAP

さらに見る 名称, コア数 ...

NVIDIA Tegra

さらに見る 名称, ALU数 ...

Samsung Exynos

さらに見る 名称, コア数 ...

GPUアクセラレーター

さらに見る 名称, コア数 ...

FPGA

さらに見る 名称, クロック ...
さらに見る 名称, クロック ...
Remove ads

脚注

関連項目

外部リンク

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads