FLOPS
величина, используемая для измерения производительности вычислительных систем Из Википедии, свободной энциклопедии
FLOPS (также flops, flop/s, флопс или флоп/с; акроним от англ. FLoating-point OPerations per Second, произносится как флопс) — внесистемная единица, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система. Поскольку современные компьютеры обладают высоким уровнем производительности, более распространены производные величины от флопс, образуемые путём использования приставок СИ.
Производительность суперкомпьютеров | ||
---|---|---|
Название | год | флопсы |
флопс | 1941 | 100 |
килофлопс | 1949 | 103 |
мегафлопс | 1964 | 106 |
гигафлопс | 1987 | 109 |
терафлопс | 1997 | 1012 |
петафлопс | 2008 | 1015 |
эксафлопс | 2022 | 1018 |
зеттафлопс | Не ранее 2030[1][2] | 1021 |
иоттафлопс | Не ранее 2040-х | 1024 |
роннафлопс | Не ранее 2050-х | 1027 |
кветтафлопс | Не ранее 2060-х | 1030 |

FLOP или FLOPS
Существуют разногласия насчёт того, допустимо ли использовать слово FLOP от англ. FLoating point OPeration в единственном числе (и такие варианты как flop или флоп). Некоторые считают, что FLOP (флоп) и FLOPS (флопс или флоп/с) — синонимы, другие же полагают, что FLOP — это просто количество операций с плавающей запятой (например, требуемое для исполнения данной программы), а FLOPS — мера производительности, способность выполнять определённое количество операций с плавающей запятой за секунду.
Флопс как мера производительности
Суммиров вкратце
Перспектива
Как и большинство других показателей производительности, данная величина определяется путём запуска на испытуемом компьютере тестовой программы, которая решает задачу с известным количеством операций и подсчитывает время, за которое она была решена. Наиболее популярным тестом производительности на сегодняшний день являются тесты производительности LINPACK, в частности HPL, используемый при составлении рейтинга суперкомпьютеров TOP500[источник не указан 731 день].
Одним из важнейших достоинств измерения производительности во флопсах является то, что данная единица до некоторых пределов может быть истолкована как абсолютная величина и вычислена теоретически, в то время как большинство других популярных мер являются относительными и позволяют оценить испытуемую систему лишь в сравнении с рядом других. Эта особенность даёт возможность использовать для оценки результатов работы различных алгоритмов, а также оценить производительность вычислительных систем, которые ещё не существуют или находятся в разработке.
Границы применимости
Несмотря на кажущуюся однозначность, в реальности флопс является достаточно плохой мерой производительности, поскольку неоднозначным является уже само его определение. Под «операцией с плавающей запятой» может скрываться масса разных понятий, не говоря уже о том, что существенную роль в данных вычислениях играет разрядность операндов, которая также нигде не оговаривается. Кроме того, флопс подвержен влиянию очень многих факторов, напрямую не связанных с производительностью вычислительного модуля, таких как пропускная способность каналов связи с окружением процессора, производительность основной памяти и синхронность работы кэш-памяти разных уровней.
Всё это, в конечном итоге, приводит к тому, что результаты, полученные на одном и том же компьютере при помощи разных программ, могут существенным образом различаться; более того, с каждым новым испытанием разные результаты можно получить при использовании одного алгоритма. Отчасти эта проблема решается соглашением об использовании единообразных тестовых программ (той же LINPACK) с усреднением результатов, но со временем возможности компьютеров «перерастают» рамки принятого теста и он начинает давать искусственно заниженные результаты, поскольку не задействует новейшие возможности вычислительных устройств. А к некоторым системам общепринятые тесты вообще не могут быть применены, в результате чего вопрос об их производительности остаётся открытым.
Так, 24 июня 2006 года общественности был представлен суперкомпьютер MDGrape-3, разработанный в японском исследовательском институте RIKEN (Йокогама), с рекордной теоретической производительностью в 1 петафлопс. Однако данный компьютер не является компьютером общего назначения и приспособлен для решения узкого спектра конкретных задач, в то время как стандартный тест LINPACK на нём выполнить невозможно в силу особенностей его архитектуры.
Также высокую производительность на специфичных задачах показывают графические процессоры современных видеокарт и игровые приставки. К примеру, заявленная производительность видеопроцессора игровой приставки PlayStation 3 составляет 192 гигафлопса[3], а видеоускорителя приставки Xbox 360 и вовсе 240 гигафлопсов[3], что сравнимо с суперкомпьютерами двадцатилетней давности. Столь высокие показатели объясняются тем, что указана производительность над числами 32-разрядного формата[4][5], тогда как для суперкомпьютеров обычно указывают производительность на 64-разрядных данных[6][7]. Кроме того, данные приставки и видеопроцессоры рассчитаны на операции с трёхмерной графикой, хорошо поддающиеся распараллеливанию, однако эти процессоры не в состоянии выполнять многие задачи общего назначения, и их производительность сложно оценить классическим тестом LINPACK[8] и тяжело сравнить с другими системами.
Пиковая производительность
Для подсчёта максимального количества флопсов для процессора нужно учитывать, что современные процессоры в каждом своём ядре содержат несколько исполнительных блоков каждого типа (в том числе и для операций с плавающей запятой), работающих параллельно, и могут выполнять более одной инструкции за такт. Данная особенность архитектуры называется суперскалярность и впервые появилась ещё в ЭВМ CDC 6600 в 1964 году. Массовое производство компьютеров с суперскалярной архитектурой началось с выпуском процессора Pentium в 1993 году. Процессор конца 2000-х годов, Intel Core 2, также является суперскалярным и содержит 2 устройства вычислений над 64-разрядными числами с плавающей запятой, которые могут завершать по 2 связанные операции (умножение и последующее сложение, MAC) в каждый такт, теоретически позволяющих достичь пиковой производительности до 4 операций за 1 такт в каждом ядре[9][10][11]. Таким образом, для процессора, имеющего в своём составе 4 ядра (Core 2 Quad) и работающего на частоте 3,5 ГГц, теоретический предел производительности составляет 4×4×3,5=56 гигафлопсов, а для процессора, имеющего 2 ядра (Core 2 Duo) и работающего на частоте 3 ГГц — 2×4×3=24 гигафлопса, что хорошо согласуется с практическими результатами, полученными на тесте LINPACK.
AMD Phenom 9500 sAM2+ с тактовой частотой 2,2 ГГц:
2200 МГц × 4 ядра × 4⋅10−3 = 35,2 гигафлопса
Для четырёхъядерного процессора Core 2 Quad Q6600:
2400 МГц × 4 ядра × 4⋅10−3 = 38,4 гигафлопса.
Более новые процессоры могут исполнять до 8 (например, Sandy и Ivy Bridge, 2011—2012 гг, AVX) или до 16 (Haswell и Broadwell, 2013—2014 гг, AVX2 и FMA3) операций над 64-битными числами с плавающей запятой в такт (на каждом ядре)[11]. В последующих процессорах ожидается исполнение 32 операций в такт (Intel Xeon Skylake, Xeon *v5, 2015 г, AVX512)[12]
Sandy и Ivy Bridge c AVX: 8 Флопс/такт двойной точности[13], 16 Флопс/такт одинарной точности
Intel Core i7 2700:/Intel Core i7 3770: 8*4*3900 МГц = 124,8 Гфлопс пиковая двойной точности, 16*4*3900 = 249,6 Гфлопс пиковая одинарной точности.
Intel Haswell/Broadwell с AVX2 и FMA3: 16 Флопс/такт двойной точности[13]; 32 одинарной точности Флопса/такт
Intel Core i7 4770: 16*4*3900 МГц = 249,6 Гигафлопс пиковая двойной точности, 32*4*3900 = 499,2 Гфлопс пиковая одинарной точности.
Причины широкого распространения
Несмотря на большое число существенных недостатков, флопс продолжает с успехом использоваться для оценки производительности, базируясь на результатах теста LINPACK. Причины такой популярности обусловлены, во-первых, тем, что флопс, как говорилось выше, является абсолютной величиной. А во-вторых, очень многие задачи инженерной и научной практики в конечном итоге сводятся к решению систем линейных алгебраических уравнений, а тест LINPACK как раз и базируется на измерении скорости решения таких систем. Кроме того, подавляющее большинство компьютеров (включая суперкомпьютеры) построены по классической архитектуре с использованием стандартных процессоров, что позволяет использовать общепринятые тесты с большой достоверностью.
В различных алгоритмах, кроме возможности выполнять большое количество математических действий в ядре процессора, может потребоваться пересылка больших объёмов данных через подсистему памяти, и их производительность будет сильно ограничена из-за этого, например, как в уровнях 1 и 2 библиотек BLAS[11]. Однако, алгоритмы, используемые в тестах типа LINPACK (уровень 3 BLAS), имеют высокий коэффициент переиспользования данных, пересылка данных между процессором и памятью в них занимает менее 1/10 общего времени, и они обычно достигают типичной производительности до 80-95 % от теоретического максимума.
Обзор производительности реальных систем
Суммиров вкратце
Перспектива
Из-за высокого разброса результатов теста LINPACK приведены примерные величины, полученные путём усреднения показателей на основе информации из разных источников. Производительность игровых приставок и распределённых систем (имеющих узкую специализацию и не поддерживающих тест LINPACK) приведена в справочных целях в соответствии с числами, заявленными их разработчиками. Более точные результаты с указанием параметров конкретных систем можно получить, например, на сайте The Performance Database Server.
Суперкомпьютеры
Уно
Кило
- ЭВМ Стрела (1953) — 3 килофлопса
- IBM 709[англ.] (1957) — 5 килофлопсов
- БЭСМ-2 (1957) — 10 килофлопсов
- ЭВМ М-40 (1959) — 40 килофлопсов
- IBM 7030 Stretch (1960) — 420 килофлопсов
Мега
- Т340-А и К340-А (НИИ ДАР) — 2,4 мегафлопса (1963)
- CDC 6600 (1964) — 1 мегафлопс
- БЭСМ-6 (1968) — 1 мегафлопс (операций сложения)
- БЭСМ-6 на базе Эльбрус-1К2 (1980-е) — 6 мегафлопсов (операций деления)
- CDC 7600 (1969) — 10 мегафлопсов
- Эльбрус-2 (1984) — 125 мегафлопсов
- Cray-1 (1974) — 133 мегафлопса
- ПС2000 (1980) — 200 мегафлопсов
- Электроника СС БИС (1991) — 500 мегафлопсов (двухмашинный вариант)
- Эльбрус-3-1 (1990) — 550 мегафлопсов
Гига
Тера
- ASCI Red (1996) — 1 терафлопс
- МВС-1000М (2001) — 1 терафлопс
- СКИФ К-1000 (2004) — 2,5 терафлопса
- МВС-100КФ (2010) — 10 терафлопс
- ASCI White (2000) — 12,3 терафлопса
- Earth Simulator (2002) — 35,86 терафлопса
- ASC Purple (2005) — 100 терафлопсов
- IBM Blue Gene/L (2006) — 478,2 терафлопса
Пета
- Cray Jaguar (2008) — 1,059 петафлопса
- IBM Roadrunner (2008) — 1,042 петафлопса[16]
- Ломоносов (2011, НИВЦ МГУ) — 1,3 петафлопса
- Jaguar Cray XT5-HE (2009) — 1,759 петафлопса
- T-Platform A-Class Cluster (Ломоносов-2, ноябрь 2014, НИВЦ МГУ) — 1,85 петафлопса (в 5 стойках)[17][18][19].
- Тяньхэ-1А (2010) — 2,57 петафлопса
- Кристофари (2019) — 6,7 петафлопса (кластер из 75 узлов NVIDIA DGX-2)[20][21][22]
- Fujitsu K computer (2011) — 8,16—10,51 петафлопса[23]
- IBM Sequoia (2012) — 16,32 петафлопса[24]
- Cray Titan (бывш. Cray Jaguar; 2012) — >17,59 петафлопса[25]
- Helios GPU (2024) — 19,7 петафлопса
- Червоненкис (2021) — 21,530 петафлопса
- Тяньхэ-2 (2013) — 33,86 петафлопса[26]
- Sunway TaihuLight (2016) — 93 петафлопса
- Eos NVIDIA DGX SuperPOD (2023) — 121,4 петафлопса
- Summit (2018) — 148,6 петафлопса
- MareNostrum 5 ACC[англ.] (2023) — 175,3 петафлопса
- Leonardo[англ.] (2022) — 241,2 петафлопсов
- Alps (2024) — 270 петафлопс
- LUMI[англ.] (2022) — 379,7 петафлопсов
- Фугаку (2020) — 442,01 петафлопса
- Eagle (2023) — 561,2 петафлопс
Экса
На данный момент лишь США обладают подтвержденными суперкомпьютерами, способными преодолеть барьер в 1 эксафлопс[27].
- Frontier (2022) — 1,206 эксафлопса (пиковая мощность 1,715 эксафлопса)
- Aurora (2024) — 1,012 эксафлопса (пиковая мощность 1,980 эксафлопса)
- El Capitan (2024) — 1,742 эксафлопса (пиковая мощность 2,746 эксафлопса)
В связи с наложенными санкциями, Китай стал ограничивать данные о своих суперкомпьютерах с 2016 года. По неофициальной информации Китай имеет минимум три суперкомпьютера мощностью уровня эксафлопс.
Зетта
В период с 2030 по 2035 год ведущими компаниями мира планируется создать суперкомпьютер мощностью 1 зеттафлопс. Планируемая потребляемая мощность от 80 до 120 мегаватт, энергоэффективность: 10 терафлопсов/ватт, пропускная способность ввода-вывода: 10-100 петабайт/сек, объём памяти: 1,0 зеттабайт.
В марте 2024 года на мероприятии компании NVIDIA GTC 2024 было представлено новое семейство ускорителей Blackwell и дата центры на их базе. На их основе уже в 2024 году возможно создание суперкомпьютера с 64000 ускорителей Blackwell(2 кластера по 32000 ускорителей 625 Экзафлопс каждый) общей мощностью 1,25 зеттафлопс в задачах обучения искусственного интеллекта при энергопотреблении 40 мегаватт.
В марте 2024 года компанией Cerebras Systems был представлен гигантский процессор WSE-3 c 900 тысячами ядер и содержит 4 трлн транзисторов, кластер может масштабироваться до 2048 ускорителей с энергопотреблением 48 мегаватт и производительностью до 256 экзафлопс с точностью FP16 и 1 зеттафлопс с точностью FP4(точность актуальна для задач искусственного интеллекта и машинного обучения)
В 2025 году словацкая компания Tachyum планирует запустить суперкомпьютер на базе универсальных процессоров Prodigy. После запуска он обеспечит производительность 8 зеттафлопсов в задачах обучения искусственного интеллекта для больших языковых моделей (в стандартных задачах расчётная производительность — более 50 эксафлопсов).
В период с 2027 по 2030 год правительство Японии планирует создать преемника флагманского суперкомпьютера Fugaku — Fugaku Next. За реализацию проекта будут отвечать сотрудники Института физико-химических исследований (RIKEN) вместе с компанией Fujitsu. По предварительным оценкам, производительность системы при работе с искусственным интеллектом составит 50 экзафлопс. В отдельных задачах система будет способна выдавать до 1 зеттафлопса мощности. Пропускная способность системы будет достигать нескольких сотен терабайт в секунду. На первый этап проекта выделено финансирование в размере 29 миллиона долларов. Общее финансирование может превысить 761 миллион долларов.
Oracle и NVIDIA анонсировали самый крупный на сегодняшний день облачный ИИ-кластер, состоящий из 131 072 ускорителей NVIDIA B200 (Blackwell). По словам компаний, это первая в мире система производительностью 2,4 зеттафлопс (FP8). Кластер заработает в I половине 2025 года.
Во 2 половине 2025 года планируется запуск суперкомпьютера Илона Маска, состоящего из нескольких кластеров общим энергопотреблением до 500 мегаватт. Суперкомпьютер на первых порах будет включать в себя тысячи собственных ускорителей Tesla Dojo D1 и 100 тыс. ускорителей Nvidia H100, далее будут добавлены 300 тыс. GPU Nvidia B200. Производительность составит порядка 7 зеттафлопс. Суперкомпьютер будет использоваться для улучшения технологии полностью автономного вождения и для развития AI-чат-бота Grok.
В декабре 2024 года в СМИ появилась информация о том, что минимум шесть крупнейших компании из США и Китая в период с 2027 по 2030 год планируют создать суперкомпьютеры с 1 миллионом ускорителей каждый, с энергопотреблением от сотен мегаватт до нескольких гигаватт. Среди компаний xAI — стартап, курируемый Илоном Маском, планирует расширить свой ИИ-кластер Colossus в Мемфисе (Теннесси, США), Microsoft, Google, Amazon и ещё несколько компаний клиентов Broadcom, а также компании из Китая. Суперкомпьютеры позволят обучать системы искусственного интеллекта быстрее, не за годы и месяцы, а за недели, дни и часы, а также обучать сложнейшие системы с сотнями триллионов или даже квадриллионами параметров. Вычислительная мощность составит сотни экзафлопс со стандартной точностью и десятки зеттафлопс в некоторых задачах, включая задачи обучения искусственного интеллекта.
Иотта
В период с 2035 по 2041 года планируется создание суперкомпьютера мощностью 1 Иоттафлопс. При создании будут использованы новые архитектуры, техпроцессы(в том числе техпроцессы ангстремного уровня), интерконнекты, технологии увеличения плотности размещения чипов, также возможно использование биотехнологий, квантовых вычислений, оптических и лазерных технологий, технологий проектирования с помощью искусственного интеллекта, природоподобные технологии. Энергопотребление моделей на классических технологиях составит сотни Мегаватт и потребует для питания ядерной энергии. Японские ученые заявили, что к 2034 году планируют уменьшить энергопотребление чипов в 130 раз по отношению к современным, за счёт применения оптических технологий.
При достижении плановых характеристик к 2035 году возможно создание суперкомпьютера мощностью 1 иоттафлопс с точностью вычислений FP4(для задач искусственного интеллекта и машинного обучения) и 6 зеттафлопс со стандартной точностью при энергопотреблении 250—300 мегаватт.
Ронна
Уровень производительности 1 роннафлопс судя по прогнозам будет достигнут в период с 2040-х годов по 2063 год. При создании возможно будут использоваться техпроцессы ангстремного уровня, оптико-лазерные технологии, биотехнологии, технологии проектирования с помощью искусственного интеллекта, природоподобные технологии, квантовые вычисления, чипы на пластине (в том числе планируемые к внедрению — 450 мм)
Кветта
Основываясь на темпах прироста производительности уровень 1 кветтафлопс будет достигнут в период с конца 2060-х по конец 2080-х годов. При создании возможно будут использоваться техпроцессы ангстремного уровня, новые архитекуры, оптико-лазерные технологии, биотехнологии, технологии проектирования с помощью искусственного интеллекта, природоподобные технологии, квантовые вычисления, чипы на пластине с высокой интеграцией компонентов (концепция Cerebras WSE) диаметром 300, 450, 675 миллиметров. Если не произойдёт научных прорывов в энергопотреблении, потребляемая мощность составит от сотен мегаватт до нескольких гигаватт и потребует для питания ядерной энергетики.
Процессоры персональных компьютеров
Пиковая производительность двойной точности[32]
- Zilog Z80 + математический сопроцессор AMD Am9512, 3 МГц (1977—1980) ~ 1-2 килофлопса[33]
- Intel 80486DX/DX2 (1990—1992) — до 30-50 Мфлопс/с[34]
- Intel Pentium 75-200 МГц (1996) — до 75-200 Мфлопс/с[34][35]
- Intel Pentium III 450—1133 МГц (1999—2000) — до 450—1113 Мфлопс/с[34][35]
- Intel Pentium III-S (2001) 1 — 1,4 ГГц — до 1 — 1,4 Гфлопс/с[35]
- МЦСТ Эльбрус 2000 300 МГц (2008) — 2,4 Гфлопс/с
- Intel Atom N270, D150 1,6 ГГц (2008—2009) — до 3,2 Гфлопс/с[34]
- Intel Pentium 4 2,5-2,8 ГГц (2004) — до 5 — 5,6 Гфлопс/с[34]
- МЦСТ Эльбрус-2С+ 500 МГц, 2 ядра (2011) — 8 Гфлопс/с
- AMD Athlon 64 X2 4200+ 2,2 ГГц, 2 ядра (2006) — 8,8 Гфлопс/с
- Intel Core 2 Duo E6600 2,4 ГГц, 2 ядра (2006) — 19,2 Гфлопс/с
- МЦСТ Эльбрус-4С (1891ВМ8Я, Эльбрус v.3) 800 МГц, 4 ядра (2014) — 25 Гфлопс/с[36]
- Intel Core i3-2350M 2,3 ГГц, 2 ядра (2011) — 36,8 Гфлопс/с
- Intel Core 2 Quad Q8300 2,5 ГГц, 4 ядра (2008) — 40 Гфлопс/с
- AMD Athlon II X4 640 3,0 ГГц, 4 ядра (2010) — 48 Гфлопс/с
- Intel Core i7-975 XE (Nehalem) 3,33 ГГц, 4 ядра (2009) — 53,3 Гфлопс/с
- AMD Phenom II X4 965 BE 3,4 ГГц, 4 ядра (2009) — 54,4 Гфлопс/с
- AMD Phenom II X6 1100T 3,3 ГГц , 6 ядер (2010) — 79,2 Гфлопс/с
- Intel Core i5-2500K (Sandy Bridge), 3,3 ГГц, 4 ядра (2011) — 105,6 Гфлопс/с
- МЦСТ Эльбрус-8С (Эльбрус v.4) 1,3 ГГц, 8 ядер (2016) — 125 Гфлопс/с[37][38]
- AMD FX-8350 4 ГГц, 8 ядер (2012) — 128 Гфлопс/с[39]
- Intel Core i5-4430 (Haswell), 3,2 ГГц, 4 ядра (2013) — 147 Гфлопс/с (по оценке программы LINPACK)[40]
- Intel Core i7-4930K (Ivy Bridge-E), 3,4 ГГц, 6 ядер (2013) — 163 Гфлопс/с
- Loongson-3B1500 (MIPS64), 1,5 ГГц, 8 ядер (2016) — до 192 Гфлопс/с[41]
- AMD Ryzen 7 1700X (Zen), 3,4 ГГц, 8 ядер (2017)[42] — 217 Гфлопс[43]
- МЦСТ Эльбрус-8СВ (Эльбрус v.5) 1,5 ГГц, 8 ядер (2020)[44] — 288 Гфлопс/с[45][46]
- IBM Power8 4,4 ГГц, 12 ядер (2013), 290 Гфлопс/с
- Intel Core i7-5960X (Extreme Edition Haswell-E), 3,0 ГГц, 8 ядер (2014) — 384 Гфлопс/с (до 350 Гфлопс/с достижимо на практике[47])
- Intel Core i9-9900k (Coffee Lake), 3,6 ГГц, 8 ядер (2018)[48] — 460 Гфлопс/с[49]
- AMD Ryzen 7 3700X (Zen 2), 3,6 ГГц, 8 ядер (2019)[50] — 460 ГФлопс/с[49]
- МЦСТ Эльбрус-12С 2 ГГц, 12 ядер (2020) — 576 Гфлопс/с
- МЦСТ Эльбрус-16С 2 ГГЦ, 16 ядер (2021) — 768 Гфлопс/с[51].
- AMD Ryzen 9 3950X (Zen 2), 3,5 ГГц, 16 ядер (2019)[52] — 896 Гфлопс/с[53]
- Loongson 3D5000 (Loongarch64), 2 ГГц, 32 ядра (2022) — 1 терафлопс
- Эльбрус-32C 2,5 ГГЦ, 32 ядра (2025 план) — 1,5 терафлопса
- Intel Core i9-14900K (Raptor Lake), 24 ядра, 3,2 ГГц (2023) — 1,95 терафлопс
- Loongson 3D6000 (Loongarch64), 2,5 ГГц, 32 ядра (2023) — 2 терафлопса
- Loongson 3E7000 (Loongarch64), 2,7 ГГц, 64 ядра (2024) — 4,2 терафлопса
- AMD EPYC 7H12 (Zen 2), 3,3 ГГц, 64 ядра (2019)[54] — 4,2 терафлопса[55]
- AMD EPYC Genoa 9654 (Zen 4), 2,15 ГГц, 96 ядер (2022) — 8,1 терафлопса
- Loongson 3C6000 (LA664), 2,5 ГГц, 128 ядер (2024) — 10 терафлопс
- AMD EPYC Bergamo 9754 (Zen 4), 2,15 ГГц, 128 ядер (2023) — 10,9 терафлопса
- Ventana Veyron V2 (RISC-V), 3,6 ГГц, 192 ядра (2024) — 13,41 терафлопса
- Sunway SW26010-Pro(RISC), 2,15 ГГц, 384 ядра (2023) — 13,8 терафлопса
- PEZY‑SC3 (MIMD) 1,33 ГГц, 8192 ядра (2022) — FP64-21,8 Тфлопс, FP32-43,6 Тфлопс, FP16-87, 2 Тфлопс
- PEZY‑SC4 (MIMD) 1,6 ГГц, 16384 ядра (2023) — FP64-52,5 Тфлопс, FP32-105 Тфлопс, FP16-210 ? Тфлопс
- Cerebras WSE-3, (WSE) 900.000 ядер (2024) — FP16-125 Петафлопс
Количество операций FLOP за такт для разных архитектур
Для ряда процессорных микроархитектур известны максимальные количества плавающих операций, исполняемых за такт на одном ядре. В следующем ниже списке указаны названия микроархитектур, а не семейства процессоров.
(single) — одинарной точности; (double) — двойной точности[56]
- Intel P5 & P6 (no ISEs) + Pentium Pro & Pentium II = 1 (single); 1 (double)
- P6 (только Pentium III) = 4 (single); 1 (double)
- Bonnell (Atom) = 4 (Single); 1 (Double)
- NetBurst = 4 (single); 2 (double)
- Pentium M & Enhanced Pentium M = 4 (single); 2 (double)
- Core, Penryn, Nehalem & Westmere = 8 (single); 4 (double)
- Sandy Bridge & Ivy Bridge, Comet Lake[57][58] & Alder Lake (P)[59] = 16 (single); 8 (double)
- Haswell, Broadwell, Skylake, Kaby Lake & Coffee Lake, Rocket Lake[60][61] = 32 (single); 16 (double)
- Skylake-X, Skylake-SP, Cascade Lake-X (Xeon Gold & Platinum) = 64 (single); 32 (double)[62][63]
- Bonnell, Saltwell, Silvermont & Airmont = 6 (single); 1.5 (double)
- MIC («Knights Corner» Xeon Phi) = 32 (single); 16 (double)
- MIC («Knights Landing» Xeon Phi) = 64 (single); 32 (double)[62]
- AMD K5 & K6 = 0.5 (single); 0.5 (double)
- K6-2 & K6-III = 4 (single); 0.5 (double)
- K7 = 4 (single); ? (double)
- K8 = 4 (single); 2 (double)
- K10/Stars = 8 (single); 4 (double)
- Husky = 8 (single); 4 (double)
- Bulldozer, Piledriver, Steamroller & Excavator (Суммарно на пару ядер — модуль[64]) = 16 (single); 8 (double)
- Bobcat = 4 (single); 1.5 (double)
- Jaguar, Puma and Puma+ = 8 (single); 3 (double)
- Zen, Zen+ = 16 (single); 8 (double)
- Zen 2 = 32 (single); 16 (double)
- МЦСТ Эльбрус 2000 (E2K) = 16 (single); 8 (double)[65][66]
- Эльбрус версии 3 = 16 (single); 8 (double)
- Эльбрус версии 4 = 24 (single); 12 (double)[67][68]
- Эльбрус версии 5 = 48 (single); 24 (double)[69][70]
Процессоры карманных компьютеров
- КПК на основе процессора Samsung S3C2440 400 МГц (архитектура ARM9) — 1,3 мегафлопса
- Intel XScale PXA270 520 МГц — 1,6 мегафлопса
- Intel XScale PXA270 624 МГц — 2 мегафлопса
- Samsung Exynos 4210 2х1600 МГц — 84 мегафлопса
- Apple A6 — 645 мегафлопсов (по оценке программы LINPACK)
- Apple A7 — 833 мегафлопса (по оценке программы LINPACK)[71]
- Apple A8 — 1,4 гигафлопса[72]
- Apple A9 — 225,6 гигафлопса (fp32), 56,4 гигафлопса (fp64)
- Apple A10 — 365 гигафлопсов (fp32), 91 гигафлопс (fp64)[73]
- Apple A11 — 462 гигафлопса (fp32),116 гигафлопсов (fp64)
- Apple A12 — 536 гигафлопсов (fp32), 134 гигафлопса (fp64)
- Apple A13 — 620 гигафлопсов (fp32),155 гигафлопсов (fp64)
- Apple A14 — 824 гигафлопса (fp32), 206 гигафлопсов (fp64)[73]
- Apple A15 — 998 гигафлопсов (fp32), 250 гигафлопсов (fp64)
- Apple A16 — 1119 гигафлопсов (fp32), 280 гигафлопсов (fp64)
- Apple A17 Pro — 1252 гигафлопса (fp32), 313 гигафлопсов (fp64)
- Apple A18 Pro — 1565 гигафлопса (fp32), 391 гигафлопсов (fp64)
Распределённые системы
- Bitcoin — имеет значительное количество специализированных вычислительных ресурсов, но решает исключительно целочисленные задачи (вычисление хеш-суммы SHA256). Практически все вычислители реализованы в виде специальных заказных микросхем (ASIC), которые технически не способны производить вычисления над числами с плавающей запятой. Следовательно, оценивать сеть Bitcoin с помощью флопсов в настоящее время некорректно.[74][75][76] Ранее, до 2011 года в сети использовались только ЦПУ и ГПУ, которые могут обрабатывать как целочисленные, так и плавающие данные, и оценка во флопсах получалась из метрики hash/s с помощью эмпирического коэффициента в 12,7 тысячи.[77][78] Например, на апрель 2011 мощность сети оценивалась таким методом примерно в 8 петафлопсов.[79]
- Folding@home — более 2,6 эксафлопса на 23 апреля 2020 года, что делает его самым мощным и крупнейшим проектом распределённых вычислений в мире.
- BOINC — более 41,5 петафлопса на март 2020 года[80]
- SETI@home — 0,66 петафлопса (на 2013 год)[81]
- Einstein@Home — более 5,2 петафлопса на март 2020 года[82]
- Rosetta@home — более 1,4 петафлопса на март 2020 года.
Игровые приставки
Указаны операции с плавающей запятой над 32-разрядными данными
- Sega Dreamcast — 1,4 гигафлопса
- Nintendo GameCube — 1,9 гигафлопса (ЦПУ), 8,6 гигафлопса (ГП ATI-AMD «Flipper»)[83]
- Sony PlayStation Portable — 2,6 гигафлопса[84]
- Nintendo Wii — 2,9 гигафлопса (ЦПУ)[85]
- Microsoft Xbox — 2,9 гигафлопса (ЦПУ Intel Pentium III 733 Mhz), 80,0 гигафлопса (ГП Nvidia XGPU 233 Mhz)[83]
- Sony PlayStation 2 — 6,2 гигафлопса
- Microsoft Xbox 360 — 115,2 гигафлопса (ЦПУ IBM Xenon), 240 гигафлопсов (ГП ATI-AMD Xenos)
- Sony PlayStation 3 — 230,4 гигафлопса одинарной точности и до +15 гигафлопсов двойной точности (ЦПУ Cell BE)[86][87]
- Nintendo Wii U — 352 гигафлопса (ГП, предположительно)[88]
- Sony PlayStation 3 — 400,4 гигафлопса (ГП) RSX Nvidia G70 550 МГц[3]
- Microsoft Xbox One — 1,23 терафлопса (ГП)[89]
- Sony PlayStation 4 (графический процессор AMD Radeon) — 1,84 терафлопса[90]
- Sony PlayStation® 4 Pro — 4,20 терафлопса (ГП AMD Radeon)[91]
- Microsoft Xbox One X — 6 терафлопсов (ГП)
- Sony PlayStation 5 (графический процессор Radeon Navi, с архитектурой RDNA2[англ.]) — 10,3 терафлопса[92]
- Microsoft Xbox Series X — 12 терафлопсов (ГП)[93]
- Sony PlayStation 5 Pro — 33,48 терафлопса
Графические процессоры
![]() | Информация в этом разделе устарела. |
Теоретическая производительность (FMA; гигафлопсы):
Графический процессор | Год выпуска | Техпроцесс | Гигафлопсов, для 32-разрядных вычислений | Гигафлопсов, для 64-разрядных вычислений | Источник |
---|---|---|---|---|---|
GeForce RTX 5090 (GB202) | 2025 | 4 нм | 104753 | 1637 | |
GeForce RTX 4090 (AD102) | 2022 | 4 нм | 82 580 | 1290 | |
GeForce RTX 3090 (GA102) | 2020 | 8 нм | 29 388 | 918,4 | |
Geforce RTX 2080 Ti (TU102) | 2018 | 12 нм | 13 450 | 420,2 | [94] |
GeForce GTX 1080 (GP104) | 2016 | 16 нм | 8873 (Boost) | 277 (Boost) | |
GeForce GTX 780 Ti (GK110-425-B1) | 2013 | 28 нм | 5046 | 210 | |
GeForce GTX 680 (GK104) | 2012 | 28 нм | 3090,4 | 128,8 | |
Radeon HD 7970 (Tahiti) | 2012 | 28 нм | 3789 | 947-1 024 | [95] |
Radeon HD 6990 (2xCayman) | 2011 | 40 нм | 2×2550 = 5 100 | 2×637 = 1 274 | [95] |
Radeon HD 5970 (2xRV870) | 2009 | 40 нм | 2×2320 = 4 640 | 2×464 = 928 | [95] |
Radeon R9 Fury X (Fuji) | 2015 | 28 нм | 8602 | 538 | [95] |
Человек и калькулятор
Калькулятор не случайно попал в одну категорию вместе с человеком, поскольку хотя он и является электронным устройством, содержащим процессор, память и устройства ввода-вывода, режим его работы кардинально отличается от режима работы компьютера. Калькулятор выполняет одну операцию за другой с той скоростью, с какой их запрашивает человек-оператор. Время, проходящее между операциями, определяется возможностями человека и существенно превышает время, которое затрачивается непосредственно на вычисления. Можно сказать, что в среднем производительность простейших обычных карманных калькуляторов составляет порядка 10 флопсов и более.
Если не брать исключительные случаи (см. феноменальный счётчик), то обычный человек, пользуясь лишь ручкой и бумагой, выполняет операции с плавающей запятой очень медленно и часто с большой ошибкой, таким образом говоря о производительности человека как вычислительного аппарата, приходится использовать такие единицы, как миллифлопсы и даже микрофлопсы.
См. также
Примечания
Ссылки
Wikiwand - on
Seamless Wikipedia browsing. On steroids.