Ampere (microarchitecture)

Caractéristiques
Date de sortie	14 mai 2020
Procédé	TSMC N7 (professionnel) Samsung 8N (grand public)
Nombre de transistors	54,20 G (GA100) 28,30 G (GA102) 22,00 G (GA103) 17,40 G (GA104) 12,00 G (GA106) 8,70 G (GA107)

Interfaces supportées
Direct3D	12
OpenGL	4.6
Vulkan	1.1
CUDA (Compute Capability)	8.0 ou 8.6

Historique
Prédécesseur	Turing (grand public) Volta (professionnel)
Successeur	Ada Lovelace (grand public) Hopper (professionnel)

Les améliorations architecturales de l'architecture Ampere comprennent :

CUDA Compute Capability 8.0 pour le A100 et 8.6 pour les cartes GeForce 30 series^[1] ;
Procédé 7 nm FinFET de TSMC pour le A100 ;
Version customisée du procédé 8 nm (8N) de Samsung pour les GeForce 30 series^[2] ;
Troisième génération de cœurs Tensor supportant le FP16, le bfloat16 (en), le TensorFloat-32 (TF32) et le FP64, ainsi que l'accélération du traitement des matrices creuses^[3]. Les cœurs Tensor ont, avec 256 opérations FMA FP16 par cycle, 4 fois la puissance de calcul (seulement sur le GA100, 2 fois sur les GA10x) des générations précédentes de cœurs Tensor ; le nombre de cœurs Tensor est de quatre par SM (Streaming Multiprocessor) ;
Les puces GA10x abritent dans chaque SM, 4 blocs SIMD16 à double voie (FP32 et/ou INT32, 4 autres SIMD16 à voie unique (INT32), 4 blocs SIMD4 pour opérations spéciales (SFU, et 1 ALU unique FP64 partagé par les 4 clusters. Pour la GA100, l'agencement reste identique à la génération précédente (Volta/Turing).
Deuxième génération de cœurs ray tracing ; ray tracing concurrent, ombrage et compute sur les cartes GeForce 30 ;
Mémoire HBM2 sur les A100 40 GB & A100 80 GB ;
Mémoire GDDR6X sur les cartes GeForce RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti ;
NVLink 3.0 avec un débit de 50 Gbit/s par paire^[3] ;
PCI Express 4.0 avec support de SR-IOV (en) (uniquement sur le A100)
Virtualisation Multi-instance GPU (MIG) avec possibilité de partitionnement du GPU supportant jusqu'à sept instances sur le A100 ;
Décodage vidéo hardware PureVideo (en) comprenant l'ensemble de caractéristiques K et le décodage hardware de AV1^[4] pour les cartes GeForce 30 series et l'ensemble de caractéristiques J pour le A100 ;
5 décodeurs vidéo NVDEC (en) pour le A100 ;
Nouveau décodeur JPEG hardware à 5 cœurs (NVJPG) avec YUV420, YUV422, YUV444, YUV400, RGBA. Il ne doit pas être confondu avec le NVJPEG de Nvidia (bibliothèque accélérée par GPU pour le codage/décodage JPEG).

Puces

GA100^[5]
GA102
GA103
GA104
GA106
GA107

Davantage d’informations Puce, GA100 ...

Puce	GA100^[6]	GA102^[7]	GA103^[8]	GA104^[9]	GA106^[10]	GA107^[11]	GA10B^[12]	GA10F
Taille de puce (mm²)	826	628	496	392	276	200	?	?
Nb. transistors (milliards)	54.2	28.3	22	17.4	12	8.7	?	?
Densité de transistors (MTr/mm²)	65,6	45,1	44,4	44,4	43,5	43,5	?	?
Nb. Graphics processing clusters	8	7	6	6	3	2	2	1
Nb. Streaming multiprocessors	128	84	60	48	30	20	16	12
Nb. cœurs CUDA	12288	10752	7680	6144	3480	2560	2048	1536
Nb. TMU	512	336	240	192	120	80	64	48
Nb. ROP	192	112	96	96	48	32	32	16
Nb. cœurs tenseur	512	336	240	192	120	80	64	48
cœurs RT	N/A	84	60	48	30	20	8	12
Cache L1	24 Mo	10.5 Mo	7.5 Mo	6 Mo	3 Mo	2.5 Mo	3 Mo	1.5 Mo
192 ko par SM	128 ko par SM	192 ko par SM	128 ko par SM
Cache L2 (Mo)	40	6	4	4	3	2	4	?

Comparaison des capacités de calcul : GP100 vs GV100 vs GA100

Davantage d’informations GPU, NVIDIA Tesla P100 ...

Comparaison des capacités de calcul : GP100 vs GV100 vs GA100^[13]
GPU	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA A100
Code du GPU	GP100	GV100	GA100
Architecture GPU	NVIDIA Pascal	NVIDIA Volta	NVIDIA Ampere
Compute capability	6.0	7.0	8.0
Threads / warp	32	32	32
Max warps / SM	64	64	64
Max threads / SM	2048	2048	2048
Max thread blocks / SM	32	32	32
Max 32-bit registers / SM	65536	65536	65536
Max registers / block	65536	65536	65536
Max registers / thread	255	255	255
Max thread block size	1024	1024	1024
FP32 cores / SM	64	64	64
Ratio of SM registers to FP32 cores	1024	1024	1024
Taille de la mémoire partagée / SM	64 KB	Configurable jusqu'à 96 KB	Configurable jusqu'à 164 KB

Tableau de comparaison des formats numériques supportés

Davantage d’informations FP16, FP32 ...

Tableau de comparaison des formats numériques supportés^[14]^,^[15]
	Formats supportés par les cœurs CUDA	Formats supportés par les cœurs Tensor
FP16	FP32	FP64	INT1	INT4	INT8	TF32	BF16	FP16	FP32	FP64	INT1	INT4	INT8	TF32	BF16
NVIDIA Tesla P4	Non	Oui	Oui	Non	Non	Oui	Non	Non	Non	Non	Non	Non	Non	Non	Non	Non
NVIDIA P100	Oui	Oui	Oui	Non	Non	Non	Non	Non	Non	Non	Non	Non	Non	Non	Non	Non
NVIDIA Volta	Oui	Oui	Oui	Non	Non	Oui	Non	Non	Oui	Non	Non	Non	Non	Non	Non	Non
NVIDIA Turing	Oui	Oui	Oui	Non	Non	Non	Non	Non	Oui	Non	Non	Oui	Oui	Oui	Non	Non
NVIDIA A100	Oui	Oui	Oui	Non	Non	Oui	Non	Oui	Oui	Non	Oui	Oui	Oui	Oui	Oui	Oui

Légende :

FPnn : virgule flottante avec nn bits
INTn : entier avec n bits
INT1 : binaire
TF32 : TensorFloat32
BF16 : bfloat16

Comparaison des performances en décodage vidéo

Davantage d’informations Décodage H.264 (1080p30), Décodage H.265 (HEVC) (1080p30) ...

Ampere (microarchitecture)

Caractéristiques

Puces

Comparaison des capacités de calcul : GP100 vs GV100 vs GA100

Tableau de comparaison des formats numériques supportés

Comparaison des performances en décodage vidéo

Notes et références

Annexes

Wikiwand - on