FLOPS - Wikiwand

FLOPS (также flops, flop/s, флопс или флоп/с; акроним от англ. FLoating-point OPerations per Second, произносится как флопс) — внесистемная единица, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система. Поскольку современные компьютеры обладают высоким уровнем производительности, более распространены производные величины от флопс, образуемые путём использования приставок СИ.

Краткие факты Производительность суперкомпьютеров, Название ...

Производительность суперкомпьютеров
Название	год	флопсы
флопс	1941	10⁰
килофлопс	1949	10³
мегафлопс	1964	10⁶
гигафлопс	1987	10⁹
терафлопс	1997	10¹²
петафлопс	2008	10¹⁵
эксафлопс	2022	10¹⁸
зеттафлопс	Не ранее 2030^[1]^[2]	10²¹
иоттафлопс	Не ранее 2040-х	10²⁴
роннафлопс	Не ранее 2050-х	10²⁷
кветтафлопс	Не ранее 2060-х	10³⁰

Закрыть

Thumb — Рост производительности суперкомпьютеров

FLOP или FLOPS

Существуют разногласия насчёт того, допустимо ли использовать слово FLOP от англ. FLoating point OPeration в единственном числе (и такие варианты как flop или флоп). Некоторые считают, что FLOP (флоп) и FLOPS (флопс или флоп/с) — синонимы, другие же полагают, что FLOP — это просто количество операций с плавающей запятой (например, требуемое для исполнения данной программы), а FLOPS — мера производительности, способность выполнять определённое количество операций с плавающей запятой за секунду.

Флопс как мера производительности

Суммиров вкратце

Перспектива

Как и большинство других показателей производительности, данная величина определяется путём запуска на испытуемом компьютере тестовой программы, которая решает задачу с известным количеством операций и подсчитывает время, за которое она была решена. Наиболее популярным тестом производительности на сегодняшний день являются тесты производительности LINPACK, в частности HPL, используемый при составлении рейтинга суперкомпьютеров TOP500^{[источник не указан 731 день]}.

Одним из важнейших достоинств измерения производительности во флопсах является то, что данная единица до некоторых пределов может быть истолкована как абсолютная величина и вычислена теоретически, в то время как большинство других популярных мер являются относительными и позволяют оценить испытуемую систему лишь в сравнении с рядом других. Эта особенность даёт возможность использовать для оценки результатов работы различных алгоритмов, а также оценить производительность вычислительных систем, которые ещё не существуют или находятся в разработке.

Границы применимости

Несмотря на кажущуюся однозначность, в реальности флопс является достаточно плохой мерой производительности, поскольку неоднозначным является уже само его определение. Под «операцией с плавающей запятой» может скрываться масса разных понятий, не говоря уже о том, что существенную роль в данных вычислениях играет разрядность операндов, которая также нигде не оговаривается. Кроме того, флопс подвержен влиянию очень многих факторов, напрямую не связанных с производительностью вычислительного модуля, таких как пропускная способность каналов связи с окружением процессора, производительность основной памяти и синхронность работы кэш-памяти разных уровней.

Всё это, в конечном итоге, приводит к тому, что результаты, полученные на одном и том же компьютере при помощи разных программ, могут существенным образом различаться; более того, с каждым новым испытанием разные результаты можно получить при использовании одного алгоритма. Отчасти эта проблема решается соглашением об использовании единообразных тестовых программ (той же LINPACK) с усреднением результатов, но со временем возможности компьютеров «перерастают» рамки принятого теста и он начинает давать искусственно заниженные результаты, поскольку не задействует новейшие возможности вычислительных устройств. А к некоторым системам общепринятые тесты вообще не могут быть применены, в результате чего вопрос об их производительности остаётся открытым.

Так, 24 июня 2006 года общественности был представлен суперкомпьютер MDGrape-3, разработанный в японском исследовательском институте RIKEN (Йокогама), с рекордной теоретической производительностью в 1 петафлопс. Однако данный компьютер не является компьютером общего назначения и приспособлен для решения узкого спектра конкретных задач, в то время как стандартный тест LINPACK на нём выполнить невозможно в силу особенностей его архитектуры.

Также высокую производительность на специфичных задачах показывают графические процессоры современных видеокарт и игровые приставки. К примеру, заявленная производительность видеопроцессора игровой приставки PlayStation 3 составляет 192 гигафлопса^[3], а видеоускорителя приставки Xbox 360 и вовсе 240 гигафлопсов^[3], что сравнимо с суперкомпьютерами двадцатилетней давности. Столь высокие показатели объясняются тем, что указана производительность над числами 32-разрядного формата^[4]^[5], тогда как для суперкомпьютеров обычно указывают производительность на 64-разрядных данных^[6]^[7]. Кроме того, данные приставки и видеопроцессоры рассчитаны на операции с трёхмерной графикой, хорошо поддающиеся распараллеливанию, однако эти процессоры не в состоянии выполнять многие задачи общего назначения, и их производительность сложно оценить классическим тестом LINPACK^[8] и тяжело сравнить с другими системами.

Пиковая производительность

Для подсчёта максимального количества флопсов для процессора нужно учитывать, что современные процессоры в каждом своём ядре содержат несколько исполнительных блоков каждого типа (в том числе и для операций с плавающей запятой), работающих параллельно, и могут выполнять более одной инструкции за такт. Данная особенность архитектуры называется суперскалярность и впервые появилась ещё в ЭВМ CDC 6600 в 1964 году. Массовое производство компьютеров с суперскалярной архитектурой началось с выпуском процессора Pentium в 1993 году. Процессор конца 2000-х годов, Intel Core 2, также является суперскалярным и содержит 2 устройства вычислений над 64-разрядными числами с плавающей запятой, которые могут завершать по 2 связанные операции (умножение и последующее сложение, MAC) в каждый такт, теоретически позволяющих достичь пиковой производительности до 4 операций за 1 такт в каждом ядре^[9]^[10]^[11]. Таким образом, для процессора, имеющего в своём составе 4 ядра (Core 2 Quad) и работающего на частоте 3,5 ГГц, теоретический предел производительности составляет 4×4×3,5=56 гигафлопсов, а для процессора, имеющего 2 ядра (Core 2 Duo) и работающего на частоте 3 ГГц — 2×4×3=24 гигафлопса, что хорошо согласуется с практическими результатами, полученными на тесте LINPACK.

AMD Phenom 9500 sAM2+ с тактовой частотой 2,2 ГГц: 2200 МГц × 4 ядра × 4⋅10⁻³ = 35,2 гигафлопса
Для четырёхъядерного процессора Core 2 Quad Q6600: 2400 МГц × 4 ядра × 4⋅10⁻³ = 38,4 гигафлопса.

Более новые процессоры могут исполнять до 8 (например, Sandy и Ivy Bridge, 2011—2012 гг, AVX) или до 16 (Haswell и Broadwell, 2013—2014 гг, AVX2 и FMA3) операций над 64-битными числами с плавающей запятой в такт (на каждом ядре)^[11]. В последующих процессорах ожидается исполнение 32 операций в такт (Intel Xeon Skylake, Xeon *v5, 2015 г, AVX512)^[12]

Sandy и Ivy Bridge c AVX: 8 Флопс/такт двойной точности^[13], 16 Флопс/такт одинарной точности
Intel Core i7 2700:/Intel Core i7 3770: 8*4*3900 МГц = 124,8 Гфлопс пиковая двойной точности, 16*4*3900 = 249,6 Гфлопс пиковая одинарной точности.

Intel Haswell/Broadwell с AVX2 и FMA3: 16 Флопс/такт двойной точности^[13]; 32 одинарной точности Флопса/такт
Intel Core i7 4770: 16*4*3900 МГц = 249,6 Гигафлопс пиковая двойной точности, 32*4*3900 = 499,2 Гфлопс пиковая одинарной точности.

Причины широкого распространения

Несмотря на большое число существенных недостатков, флопс продолжает с успехом использоваться для оценки производительности, базируясь на результатах теста LINPACK. Причины такой популярности обусловлены, во-первых, тем, что флопс, как говорилось выше, является абсолютной величиной. А во-вторых, очень многие задачи инженерной и научной практики в конечном итоге сводятся к решению систем линейных алгебраических уравнений, а тест LINPACK как раз и базируется на измерении скорости решения таких систем. Кроме того, подавляющее большинство компьютеров (включая суперкомпьютеры) построены по классической архитектуре с использованием стандартных процессоров, что позволяет использовать общепринятые тесты с большой достоверностью.

В различных алгоритмах, кроме возможности выполнять большое количество математических действий в ядре процессора, может потребоваться пересылка больших объёмов данных через подсистему памяти, и их производительность будет сильно ограничена из-за этого, например, как в уровнях 1 и 2 библиотек BLAS^[11]. Однако, алгоритмы, используемые в тестах типа LINPACK (уровень 3 BLAS), имеют высокий коэффициент переиспользования данных, пересылка данных между процессором и памятью в них занимает менее 1/10 общего времени, и они обычно достигают типичной производительности до 80-95 % от теоретического максимума.

Обзор производительности реальных систем

Суммиров вкратце

Перспектива

Из-за высокого разброса результатов теста LINPACK приведены примерные величины, полученные путём усреднения показателей на основе информации из разных источников. Производительность игровых приставок и распределённых систем (имеющих узкую специализацию и не поддерживающих тест LINPACK) приведена в справочных целях в соответствии с числами, заявленными их разработчиками. Более точные результаты с указанием параметров конкретных систем можно получить, например, на сайте The Performance Database Server.

Суперкомпьютеры

Уно

Z3 (1941) — 2 флопса^[14]
ЭВМ М-1 (1951) — 20 флопсов
ЭВМ МЭСМ (1950) — 50 флопсов
ЭНИАК (1946) — 500 флопсов^[15]

Кило

ЭВМ Стрела (1953) — 3 килофлопса
IBM 709^[англ.] (1957) — 5 килофлопсов
БЭСМ-2 (1957) — 10 килофлопсов
ЭВМ М-40 (1959) — 40 килофлопсов
IBM 7030 Stretch (1960) — 420 килофлопсов

Мега

Т340-А и К340-А (НИИ ДАР) — 2,4 мегафлопса (1963)
CDC 6600 (1964) — 1 мегафлопс
БЭСМ-6 (1968) — 1 мегафлопс (операций сложения)
БЭСМ-6 на базе Эльбрус-1К2 (1980-е) — 6 мегафлопсов (операций деления)
CDC 7600 (1969) — 10 мегафлопсов
Эльбрус-2 (1984) — 125 мегафлопсов
Cray-1 (1974) — 133 мегафлопса
ПС2000 (1980) — 200 мегафлопсов
Электроника СС БИС (1991) — 500 мегафлопсов (двухмашинный вариант)
Эльбрус-3-1 (1990) — 550 мегафлопсов

Гига

NEC SX-2 (1983) — 1,3 гигафлопса
М-13 (1984) — 2,4 гигафлопса
ПС2100 (1985—1986) — 1,5 гигафлопса
Cray-2 (1985) — 1,9 гигафлопса
Cray Y-MP (1988) — 2,3 гигафлопса
ETA-10G (1990) — 10 гигафлопс
МВС-100 (1995) — 100 гигафлопс
Numerical Wind Tunnel (1993) — 124,5 гигафлопса

Тера

ASCI Red (1996) — 1 терафлопс
МВС-1000М (2001) — 1 терафлопс
СКИФ К-1000 (2004) — 2,5 терафлопса
МВС-100КФ (2010) — 10 терафлопс
ASCI White (2000) — 12,3 терафлопса
Earth Simulator (2002) — 35,86 терафлопса
ASC Purple (2005) — 100 терафлопсов
IBM Blue Gene/L (2006) — 478,2 терафлопса

Пета

Cray Jaguar (2008) — 1,059 петафлопса
IBM Roadrunner (2008) — 1,042 петафлопса^[16]
Ломоносов (2011, НИВЦ МГУ) — 1,3 петафлопса
Jaguar Cray XT5-HE (2009) — 1,759 петафлопса
T-Platform A-Class Cluster (Ломоносов-2, ноябрь 2014, НИВЦ МГУ) — 1,85 петафлопса (в 5 стойках)^[17]^[18]^[19].
Тяньхэ-1А (2010) — 2,57 петафлопса
Кристофари (2019) — 6,7 петафлопса (кластер из 75 узлов NVIDIA DGX-2)^[20]^[21]^[22]
Fujitsu K computer (2011) — 8,16—10,51 петафлопса^[23]
IBM Sequoia (2012) — 16,32 петафлопса^[24]
Cray Titan (бывш. Cray Jaguar; 2012) — >17,59 петафлопса^[25]
Helios GPU (2024) — 19,7 петафлопса
Червоненкис (2021) — 21,530 петафлопса
Тяньхэ-2 (2013) — 33,86 петафлопса^[26]
Sunway TaihuLight (2016) — 93 петафлопса
Eos NVIDIA DGX SuperPOD (2023) — 121,4 петафлопса
Summit (2018) — 148,6 петафлопса
MareNostrum 5 ACC^[англ.] (2023) — 175,3 петафлопса
Leonardo^[англ.] (2022) — 241,2 петафлопсов
Alps (2024) — 270 петафлопс
LUMI^[англ.] (2022) — 379,7 петафлопсов
Фугаку (2020) — 442,01 петафлопса
Eagle (2023) — 561,2 петафлопс

Экса

На данный момент лишь США обладают подтвержденными суперкомпьютерами, способными преодолеть барьер в 1 эксафлопс^[27].

Frontier (2022) — 1,206 эксафлопса (пиковая мощность 1,715 эксафлопса)
Aurora (2024) — 1,012 эксафлопса (пиковая мощность 1,980 эксафлопса)
El Capitan (2024) — 1,742 эксафлопса (пиковая мощность 2,746 эксафлопса)

В связи с наложенными санкциями, Китай стал ограничивать данные о своих суперкомпьютерах с 2016 года. По неофициальной информации Китай имеет минимум три суперкомпьютера мощностью уровня эксафлопс.

Shuguang (Dawning/Sugon) (2020) — ≈1 эксафлопс
Sunway OceanLight (приблизительно март 2021) — ≈1,2-1,5 эксафлопса (пиковая мощность ≈2 эксафлопса)
Тяньхэ-3 (Tianhe Xingyi) (приблизительно декабрь 2023^[28]) — ≈1,5 эксафлопса (пиковая мощность ≈2 эксафлопса)^[29]^[30]^[31]

Зетта

В период с 2030 по 2035 год ведущими компаниями мира планируется создать суперкомпьютер мощностью 1 зеттафлопс. Планируемая потребляемая мощность от 80 до 120 мегаватт, энергоэффективность: 10 терафлопсов/ватт, пропускная способность ввода-вывода: 10-100 петабайт/сек, объём памяти: 1,0 зеттабайт.

В марте 2024 года на мероприятии компании NVIDIA GTC 2024 было представлено новое семейство ускорителей Blackwell и дата центры на их базе. На их основе уже в 2024 году возможно создание суперкомпьютера с 64000 ускорителей Blackwell(2 кластера по 32000 ускорителей 625 Экзафлопс каждый) общей мощностью 1,25 зеттафлопс в задачах обучения искусственного интеллекта при энергопотреблении 40 мегаватт.

В марте 2024 года компанией Cerebras Systems был представлен гигантский процессор WSE-3 c 900 тысячами ядер и содержит 4 трлн транзисторов, кластер может масштабироваться до 2048 ускорителей с энергопотреблением 48 мегаватт и производительностью до 256 экзафлопс с точностью FP16 и 1 зеттафлопс с точностью FP4(точность актуальна для задач искусственного интеллекта и машинного обучения)

В 2025 году словацкая компания Tachyum планирует запустить суперкомпьютер на базе универсальных процессоров Prodigy. После запуска он обеспечит производительность 8 зеттафлопсов в задачах обучения искусственного интеллекта для больших языковых моделей (в стандартных задачах расчётная производительность — более 50 эксафлопсов).

В период с 2027 по 2030 год правительство Японии планирует создать преемника флагманского суперкомпьютера Fugaku — Fugaku Next. За реализацию проекта будут отвечать сотрудники Института физико-химических исследований (RIKEN) вместе с компанией Fujitsu. По предварительным оценкам, производительность системы при работе с искусственным интеллектом составит 50 экзафлопс. В отдельных задачах система будет способна выдавать до 1 зеттафлопса мощности. Пропускная способность системы будет достигать нескольких сотен терабайт в секунду. На первый этап проекта выделено финансирование в размере 29 миллиона долларов. Общее финансирование может превысить 761 миллион долларов.

Oracle и NVIDIA анонсировали самый крупный на сегодняшний день облачный ИИ-кластер, состоящий из 131 072 ускорителей NVIDIA B200 (Blackwell). По словам компаний, это первая в мире система производительностью 2,4 зеттафлопс (FP8). Кластер заработает в I половине 2025 года.

Во 2 половине 2025 года планируется запуск суперкомпьютера Илона Маска, состоящего из нескольких кластеров общим энергопотреблением до 500 мегаватт. Суперкомпьютер на первых порах будет включать в себя тысячи собственных ускорителей Tesla Dojo D1 и 100 тыс. ускорителей Nvidia H100, далее будут добавлены 300 тыс. GPU Nvidia B200. Производительность составит порядка 7 зеттафлопс. Суперкомпьютер будет использоваться для улучшения технологии полностью автономного вождения и для развития AI-чат-бота Grok.

В декабре 2024 года в СМИ появилась информация о том, что минимум шесть крупнейших компании из США и Китая в период с 2027 по 2030 год планируют создать суперкомпьютеры с 1 миллионом ускорителей каждый, с энергопотреблением от сотен мегаватт до нескольких гигаватт. Среди компаний xAI — стартап, курируемый Илоном Маском, планирует расширить свой ИИ-кластер Colossus в Мемфисе (Теннесси, США), Microsoft, Google, Amazon и ещё несколько компаний клиентов Broadcom, а также компании из Китая. Суперкомпьютеры позволят обучать системы искусственного интеллекта быстрее, не за годы и месяцы, а за недели, дни и часы, а также обучать сложнейшие системы с сотнями триллионов или даже квадриллионами параметров. Вычислительная мощность составит сотни экзафлопс со стандартной точностью и десятки зеттафлопс в некоторых задачах, включая задачи обучения искусственного интеллекта.

Иотта

В период с 2035 по 2041 года планируется создание суперкомпьютера мощностью 1 Иоттафлопс. При создании будут использованы новые архитектуры, техпроцессы(в том числе техпроцессы ангстремного уровня), интерконнекты, технологии увеличения плотности размещения чипов, также возможно использование биотехнологий, квантовых вычислений, оптических и лазерных технологий, технологий проектирования с помощью искусственного интеллекта, природоподобные технологии. Энергопотребление моделей на классических технологиях составит сотни Мегаватт и потребует для питания ядерной энергии. Японские ученые заявили, что к 2034 году планируют уменьшить энергопотребление чипов в 130 раз по отношению к современным, за счёт применения оптических технологий.

При достижении плановых характеристик к 2035 году возможно создание суперкомпьютера мощностью 1 иоттафлопс с точностью вычислений FP4(для задач искусственного интеллекта и машинного обучения) и 6 зеттафлопс со стандартной точностью при энергопотреблении 250—300 мегаватт.

Ронна

Уровень производительности 1 роннафлопс судя по прогнозам будет достигнут в период с 2040-х годов по 2063 год. При создании возможно будут использоваться техпроцессы ангстремного уровня, оптико-лазерные технологии, биотехнологии, технологии проектирования с помощью искусственного интеллекта, природоподобные технологии, квантовые вычисления, чипы на пластине (в том числе планируемые к внедрению — 450 мм)

Кветта

Основываясь на темпах прироста производительности уровень 1 кветтафлопс будет достигнут в период с конца 2060-х по конец 2080-х годов. При создании возможно будут использоваться техпроцессы ангстремного уровня, новые архитекуры, оптико-лазерные технологии, биотехнологии, технологии проектирования с помощью искусственного интеллекта, природоподобные технологии, квантовые вычисления, чипы на пластине с высокой интеграцией компонентов (концепция Cerebras WSE) диаметром 300, 450, 675 миллиметров. Если не произойдёт научных прорывов в энергопотреблении, потребляемая мощность составит от сотен мегаватт до нескольких гигаватт и потребует для питания ядерной энергетики.

Процессоры персональных компьютеров

Пиковая производительность двойной точности^[32]

Zilog Z80 + математический сопроцессор AMD Am9512, 3 МГц (1977—1980) ~ 1-2 килофлопса^[33]
Intel 80486DX/DX2 (1990—1992) — до 30-50 Мфлопс/с^[34]
Intel Pentium 75-200 МГц (1996) — до 75-200 Мфлопс/с^[34]^[35]
Intel Pentium III 450—1133 МГц (1999—2000) — до 450—1113 Мфлопс/с^[34]^[35]
Intel Pentium III-S (2001) 1 — 1,4 ГГц — до 1 — 1,4 Гфлопс/с^[35]
МЦСТ Эльбрус 2000 300 МГц (2008) — 2,4 Гфлопс/с
Intel Atom N270, D150 1,6 ГГц (2008—2009) — до 3,2 Гфлопс/с^[34]
Intel Pentium 4 2,5-2,8 ГГц (2004) — до 5 — 5,6 Гфлопс/с^[34]
МЦСТ Эльбрус-2С+ 500 МГц, 2 ядра (2011) — 8 Гфлопс/с
AMD Athlon 64 X2 4200+ 2,2 ГГц, 2 ядра (2006) — 8,8 Гфлопс/с
Intel Core 2 Duo E6600 2,4 ГГц, 2 ядра (2006) — 19,2 Гфлопс/с
МЦСТ Эльбрус-4С (1891ВМ8Я, Эльбрус v.3) 800 МГц, 4 ядра (2014) — 25 Гфлопс/с^[36]
Intel Core i3-2350M 2,3 ГГц, 2 ядра (2011) — 36,8 Гфлопс/с
Intel Core 2 Quad Q8300 2,5 ГГц, 4 ядра (2008) — 40 Гфлопс/с
AMD Athlon II X4 640 3,0 ГГц, 4 ядра (2010) — 48 Гфлопс/с
Intel Core i7-975 XE (Nehalem) 3,33 ГГц, 4 ядра (2009) — 53,3 Гфлопс/с
AMD Phenom II X4 965 BE 3,4 ГГц, 4 ядра (2009) — 54,4 Гфлопс/с
AMD Phenom II X6 1100T 3,3 ГГц , 6 ядер (2010) — 79,2 Гфлопс/с
Intel Core i5-2500K (Sandy Bridge), 3,3 ГГц, 4 ядра (2011) — 105,6 Гфлопс/с
МЦСТ Эльбрус-8С (Эльбрус v.4) 1,3 ГГц, 8 ядер (2016) — 125 Гфлопс/с^[37]^[38]
AMD FX-8350 4 ГГц, 8 ядер (2012) — 128 Гфлопс/с^[39]
Intel Core i5-4430 (Haswell), 3,2 ГГц, 4 ядра (2013) — 147 Гфлопс/с (по оценке программы LINPACK)^[40]
Intel Core i7-4930K (Ivy Bridge-E), 3,4 ГГц, 6 ядер (2013) — 163 Гфлопс/с
Loongson-3B1500 (MIPS64), 1,5 ГГц, 8 ядер (2016) — до 192 Гфлопс/с^[41]
AMD Ryzen 7 1700X (Zen), 3,4 ГГц, 8 ядер (2017)^[42] — 217 Гфлопс^[43]
МЦСТ Эльбрус-8СВ (Эльбрус v.5) 1,5 ГГц, 8 ядер (2020)^[44] — 288 Гфлопс/с^[45]^[46]
IBM Power8 4,4 ГГц, 12 ядер (2013), 290 Гфлопс/с
Intel Core i7-5960X (Extreme Edition Haswell-E), 3,0 ГГц, 8 ядер (2014) — 384 Гфлопс/с (до 350 Гфлопс/с достижимо на практике^[47])
Intel Core i9-9900k (Coffee Lake), 3,6 ГГц, 8 ядер (2018)^[48] — 460 Гфлопс/с^[49]
AMD Ryzen 7 3700X (Zen 2), 3,6 ГГц, 8 ядер (2019)^[50] — 460 ГФлопс/с^[49]
МЦСТ Эльбрус-12С 2 ГГц, 12 ядер (2020) — 576 Гфлопс/с
МЦСТ Эльбрус-16С 2 ГГЦ, 16 ядер (2021) — 768 Гфлопс/с^[51].
AMD Ryzen 9 3950X (Zen 2), 3,5 ГГц, 16 ядер (2019)^[52] — 896 Гфлопс/с^[53]
Loongson 3D5000 (Loongarch64), 2 ГГц, 32 ядра (2022) — 1 терафлопс
Эльбрус-32C 2,5 ГГЦ, 32 ядра (2025 план) — 1,5 терафлопса
Intel Core i9-14900K (Raptor Lake), 24 ядра, 3,2 ГГц (2023) — 1,95 терафлопс
Loongson 3D6000 (Loongarch64), 2,5 ГГц, 32 ядра (2023) — 2 терафлопса
Loongson 3E7000 (Loongarch64), 2,7 ГГц, 64 ядра (2024) — 4,2 терафлопса
AMD EPYC 7H12 (Zen 2), 3,3 ГГц, 64 ядра (2019)^[54] — 4,2 терафлопса^[55]
AMD EPYC Genoa 9654 (Zen 4), 2,15 ГГц, 96 ядер (2022) — 8,1 терафлопса
Loongson 3C6000 (LA664), 2,5 ГГц, 128 ядер (2024) — 10 терафлопс
AMD EPYC Bergamo 9754 (Zen 4), 2,15 ГГц, 128 ядер (2023) — 10,9 терафлопса
Ventana Veyron V2 (RISC-V), 3,6 ГГц, 192 ядра (2024) — 13,41 терафлопса
Sunway SW26010-Pro(RISC), 2,15 ГГц, 384 ядра (2023) — 13,8 терафлопса
PEZY‑SC3 (MIMD) 1,33 ГГц, 8192 ядра (2022) — FP64-21,8 Тфлопс, FP32-43,6 Тфлопс, FP16-87, 2 Тфлопс
PEZY‑SC4 (MIMD) 1,6 ГГц, 16384 ядра (2023) — FP64-52,5 Тфлопс, FP32-105 Тфлопс, FP16-210 ? Тфлопс
Cerebras WSE-3, (WSE) 900.000 ядер (2024) — FP16-125 Петафлопс

Количество операций FLOP за такт для разных архитектур

Для ряда процессорных микроархитектур известны максимальные количества плавающих операций, исполняемых за такт на одном ядре. В следующем ниже списке указаны названия микроархитектур, а не семейства процессоров.

(single) — одинарной точности; (double) — двойной точности^[56]

Intel P5 & P6 (no ISEs) + Pentium Pro & Pentium II = 1 (single); 1 (double)
P6 (только Pentium III) = 4 (single); 1 (double)
Bonnell (Atom) = 4 (Single); 1 (Double)
NetBurst = 4 (single); 2 (double)
Pentium M & Enhanced Pentium M = 4 (single); 2 (double)
Core, Penryn, Nehalem & Westmere = 8 (single); 4 (double)
Sandy Bridge & Ivy Bridge, Comet Lake^[57]^[58] & Alder Lake (P)^[59] = 16 (single); 8 (double)
Haswell, Broadwell, Skylake, Kaby Lake & Coffee Lake, Rocket Lake^[60]^[61] = 32 (single); 16 (double)
Skylake-X, Skylake-SP, Cascade Lake-X (Xeon Gold & Platinum) = 64 (single); 32 (double)^[62]^[63]
Bonnell, Saltwell, Silvermont & Airmont = 6 (single); 1.5 (double)
MIC («Knights Corner» Xeon Phi) = 32 (single); 16 (double)
MIC («Knights Landing» Xeon Phi) = 64 (single); 32 (double)^[62]
AMD K5 & K6 = 0.5 (single); 0.5 (double)
K6-2 & K6-III = 4 (single); 0.5 (double)
K7 = 4 (single); ? (double)
K8 = 4 (single); 2 (double)
K10/Stars = 8 (single); 4 (double)
Husky = 8 (single); 4 (double)
Bulldozer, Piledriver, Steamroller & Excavator (Суммарно на пару ядер — модуль^[64]) = 16 (single); 8 (double)
Bobcat = 4 (single); 1.5 (double)
Jaguar, Puma and Puma+ = 8 (single); 3 (double)
Zen, Zen+ = 16 (single); 8 (double)
Zen 2 = 32 (single); 16 (double)
МЦСТ Эльбрус 2000 (E2K) = 16 (single); 8 (double)^[65]^[66]
Эльбрус версии 3 = 16 (single); 8 (double)
Эльбрус версии 4 = 24 (single); 12 (double)^[67]^[68]
Эльбрус версии 5 = 48 (single); 24 (double)^[69]^[70]

Процессоры карманных компьютеров

КПК на основе процессора Samsung S3C2440 400 МГц (архитектура ARM9) — 1,3 мегафлопса
Intel XScale PXA270 520 МГц — 1,6 мегафлопса
Intel XScale PXA270 624 МГц — 2 мегафлопса
Samsung Exynos 4210 2х1600 МГц — 84 мегафлопса
Apple A6 — 645 мегафлопсов (по оценке программы LINPACK)
Apple A7 — 833 мегафлопса (по оценке программы LINPACK)^[71]
Apple A8 — 1,4 гигафлопса^[72]
Apple A9 — 225,6 гигафлопса (fp32), 56,4 гигафлопса (fp64)
Apple A10 — 365 гигафлопсов (fp32), 91 гигафлопс (fp64)^[73]
Apple A11 — 462 гигафлопса (fp32),116 гигафлопсов (fp64)
Apple A12 — 536 гигафлопсов (fp32), 134 гигафлопса (fp64)
Apple A13 — 620 гигафлопсов (fp32),155 гигафлопсов (fp64)
Apple A14 — 824 гигафлопса (fp32), 206 гигафлопсов (fp64)^[73]
Apple A15 — 998 гигафлопсов (fp32), 250 гигафлопсов (fp64)
Apple A16 — 1119 гигафлопсов (fp32), 280 гигафлопсов (fp64)
Apple A17 Pro — 1252 гигафлопса (fp32), 313 гигафлопсов (fp64)
Apple A18 Pro — 1565 гигафлопса (fp32), 391 гигафлопсов (fp64)

Распределённые системы

Bitcoin — имеет значительное количество специализированных вычислительных ресурсов, но решает исключительно целочисленные задачи (вычисление хеш-суммы SHA256). Практически все вычислители реализованы в виде специальных заказных микросхем (ASIC), которые технически не способны производить вычисления над числами с плавающей запятой. Следовательно, оценивать сеть Bitcoin с помощью флопсов в настоящее время некорректно.^[74]^[75]^[76] Ранее, до 2011 года в сети использовались только ЦПУ и ГПУ, которые могут обрабатывать как целочисленные, так и плавающие данные, и оценка во флопсах получалась из метрики hash/s с помощью эмпирического коэффициента в 12,7 тысячи.^[77]^[78] Например, на апрель 2011 мощность сети оценивалась таким методом примерно в 8 петафлопсов.^[79]
Folding@home — более 2,6 эксафлопса на 23 апреля 2020 года, что делает его самым мощным и крупнейшим проектом распределённых вычислений в мире.
BOINC — более 41,5 петафлопса на март 2020 года^[80]
SETI@home — 0,66 петафлопса (на 2013 год)^[81]
Einstein@Home — более 5,2 петафлопса на март 2020 года^[82]
Rosetta@home — более 1,4 петафлопса на март 2020 года.

Игровые приставки

Указаны операции с плавающей запятой над 32-разрядными данными

Sega Dreamcast — 1,4 гигафлопса
Nintendo GameCube — 1,9 гигафлопса (ЦПУ), 8,6 гигафлопса (ГП ATI-AMD «Flipper»)^[83]
Sony PlayStation Portable — 2,6 гигафлопса^[84]
Nintendo Wii — 2,9 гигафлопса (ЦПУ)^[85]
Microsoft Xbox — 2,9 гигафлопса (ЦПУ Intel Pentium III 733 Mhz), 80,0 гигафлопса (ГП Nvidia XGPU 233 Mhz)^[83]
Sony PlayStation 2 — 6,2 гигафлопса
Microsoft Xbox 360 — 115,2 гигафлопса (ЦПУ IBM Xenon), 240 гигафлопсов (ГП ATI-AMD Xenos)
Sony PlayStation 3 — 230,4 гигафлопса одинарной точности и до +15 гигафлопсов двойной точности (ЦПУ Cell BE)^[86]^[87]
Nintendo Wii U — 352 гигафлопса (ГП, предположительно)^[88]
Sony PlayStation 3 — 400,4 гигафлопса (ГП) RSX Nvidia G70 550 МГц^[3]
Microsoft Xbox One — 1,23 терафлопса (ГП)^[89]
Sony PlayStation 4 (графический процессор AMD Radeon) — 1,84 терафлопса^[90]
Sony PlayStation® 4 Pro — 4,20 терафлопса (ГП AMD Radeon)^[91]
Microsoft Xbox One X — 6 терафлопсов (ГП)
Sony PlayStation 5 (графический процессор Radeon Navi, с архитектурой RDNA2^[англ.]) — 10,3 терафлопса^[92]
Microsoft Xbox Series X — 12 терафлопсов (ГП)^[93]
Sony PlayStation 5 Pro — 33,48 терафлопса

Графические процессоры

Информация в этом разделе устарела.

Теоретическая производительность (FMA; гигафлопсы):

Подробнее Графический процессор, Год выпуска ...

Графический процессор	Год выпуска	Техпроцесс	Гигафлопсов, для 32-разрядных вычислений	Гигафлопсов, для 64-разрядных вычислений	Источник
GeForce RTX 5090 (GB202)	2025	4 нм	104753	1637
GeForce RTX 4090 (AD102)	2022	4 нм	82 580	1290
GeForce RTX 3090 (GA102)	2020	8 нм	29 388	918,4
Geforce RTX 2080 Ti (TU102)	2018	12 нм	13 450	420,2	^[94]
GeForce GTX 1080 (GP104)	2016	16 нм	8873 (Boost)	277 (Boost)
GeForce GTX 780 Ti (GK110-425-B1)	2013	28 нм	5046	210
GeForce GTX 680 (GK104)	2012	28 нм	3090,4	128,8
Radeon HD 7970 (Tahiti)	2012	28 нм	3789	947-1 024	^[95]
Radeon HD 6990 (2xCayman)	2011	40 нм	2×2550 = 5 100	2×637 = 1 274	^[95]
Radeon HD 5970 (2xRV870)	2009	40 нм	2×2320 = 4 640	2×464 = 928	^[95]
Radeon R9 Fury X (Fuji)	2015	28 нм	8602	538	^[95]

Закрыть

Человек и калькулятор

Калькулятор не случайно попал в одну категорию вместе с человеком, поскольку хотя он и является электронным устройством, содержащим процессор, память и устройства ввода-вывода, режим его работы кардинально отличается от режима работы компьютера. Калькулятор выполняет одну операцию за другой с той скоростью, с какой их запрашивает человек-оператор. Время, проходящее между операциями, определяется возможностями человека и существенно превышает время, которое затрачивается непосредственно на вычисления. Можно сказать, что в среднем производительность простейших обычных карманных калькуляторов составляет порядка 10 флопсов и более.

Если не брать исключительные случаи (см. феноменальный счётчик), то обычный человек, пользуясь лишь ручкой и бумагой, выполняет операции с плавающей запятой очень медленно и часто с большой ошибкой, таким образом говоря о производительности человека как вычислительного аппарата, приходится использовать такие единицы, как миллифлопсы и даже микрофлопсы.

См. также

Примечания

Loading content...

Ссылки

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.