Nvidia-GeForce-40-Serie

Die GeForce-40-Serie ist eine Serie von Grafikkarten des Unternehmens Nvidia und Nachfolger der GeForce-30-Serie. Alle Grafikprozessoren basieren auf der Lovelace-Architektur, benannt nach der britischen Mathematikerin Ada Lovelace, und unterstützen das Shadermodell 6.6 nach DirectX 12 Ultimate. Die ersten Grafikkarten wurden von Nvidia im Rahmen der GTC 2022 am 20. September 2022 offiziell vorgestellt.^[1]

Die ersten Modelle der Nachfolger-Reihe Nvidia-GeForce-50-Serie wurden am 6. Januar 2025 vorgestellt.^[2]

Beschreibung

Zusammenfassung

Kontext

Die ersten Grafikkarten der GeForce-40-Serie wurden im Rahmen der GTC 2022 am 20. September 2022 offiziell vorgestellt, wobei es sich um die GeForce RTX 4090, sowie zwei Modelle der GeForce RTX 4080 handelte.^[1] Nachdem die Vorgänger bei Samsung produziert wurden, kehrte Nvidia nun wieder zu TSMC zurück. Die Grafikprozessoren werden bei TSMC im 4N-Fertigungsprozess hergestellt, wobei es sich um einen für Nvidia angepassten 5-nm-Prozess handelt.

Als erste Grafikkarte der GeForce-40-Serie kam die GeForce RTX 4090 am 12. Oktober 2022 auf den Markt. Diese nutzt den AD102-300-A1-Grafikprozessor, welcher auf der Karte teildeaktiviert ist. So sind nur 128 der 144 Shader-Cluster aktiv und der L2-Cache ist von 96 auf 72 MiB reduziert worden. In dieser Spezifikation erreicht die GeForce RTX 4090 in 4K-Anwendungen eine 60 % bis 70 % höhere Leistung gegenüber der GeForce RTX 3090 Ti.^[3]^[4]

Am 28. Dezember 2023 stellte Nvidia die GeForce RTX 4090D exklusiv für den chinesischen Markt vor, wobei es sich um eine leistungsreduzierte Version der normalen GeForce RTX 4090 handelt. Hintergrund dieser Präsentation sind verschärfte US-Sanktionen für Hochtechnologie und Halbleiter gegenüber China, bei welcher die maximal zulässige Rechenleistung im sogenannten TPP-Rating auf 4800 Punkte beschränkt wird.^[5]

Bei der Vorstellung der GeForce RTX 4080 präsentierte Nvidia diese in zwei Modellen: ein 16-GiB-Modell auf Basis des AD103-300-A1, sowie ein 12-GiB-Modell, welches den AD104-400-A1-Grafikprozessor nutzt. Dieser Umstand sorgte für massive Kritik, da beide Modelle erheblich unterschiedliche Leistungswerte aufwiesen, weshalb die Verwendung desselben Verkaufsnamens als irreführend angesehen wurde. Auch der deutlich gestiegene Listenpreis von 1199 US$ (16-GiB-Modell) bzw. 899 US$ (12-GiB-Modell) gegenüber 699 US$ bei der GeForce RTX 3080 sorgte für Kritik. Als Folge der Kritik zog Nvidia das 12-GiB-Modell noch vor dem geplanten Verkaufsstart wieder zurück.^[6]^[7]

Bei der GeForce RTX 4060 und 4060 Ti ist zu beachten, dass diese nur über 8 Lanes verfügt, im Gegensatz zu allen vorherigen 60er-Modellen.^[8]

Ada-Lovelace-Architektur

Zusammenfassung

Kontext

Die Ada-Lovelace-Architektur ist die direkte Weiterentwicklung der Ampere-Architektur, deren eigentlicher Aufbau nicht verändert wurde.^[9]^[10] Nach wie vor sind die Grafikprozessoren in Graphics-Processing-Cluster (GPC) gegliedert, die teilweise auch als Raster-Engines bezeichnet werden. Jeder GPC besteht aus 6 Texture-Processing-Cluster (TPC), welche allerdings teilweise deaktiviert sein können. Ein TPC besteht dabei aus zwei Shader-Clustern, welche von Nvidia als Streaming-Multiprozessoren (SM) bezeichnet werden. Dabei sind jedem SM folgende Einheiten zugeordnet:

64 FP32-Einheiten für 32-Bit-Gleitkomma-Zahlen
64 Dual-Use FP32/INT32-Einheiten für 32-Bit-Gleitkomma-Zahlen oder für 32-Bit-Ganzzahlen
2 FP64-Einheiten für 64-Bit-Gleitkomma-Zahlen
4 Textureinheiten
16 Load/Store-Einheiten
16 Special-Function-Units
4 Tensoreinheiten (4. Generation)
1 Raytracing-Einheit (3. Generation)

Während der L2-Cache bei Ada-Lovelace erheblich vergrößert wurde (von 6 MB beim GA102 auf 96 MB beim AD102), blieb der L1-Cache pro SM unverändert bei 128 KB.

Bei der Präsentation der neuen Ada-Lovelace-Architektur legte Nvidias Marketing den Fokus auf DLSS 3. Die dritte Hauptversion des KI-gestützten Upsamplings führt eine sogenannte Frame Generation ein.^[10] Das zusätzliche Feature erzeugt zwischen jedem nativen Frame noch einen zusätzlichen KI-gestützt erzeugten Frame.

Datenübersicht

Grafikprozessoren

Weitere Informationen Grafik- chip, Fertigung ...

Grafik- chip	Fertigung			Einheiten							L2- Cache	API-Support					Video- pro- zessor	Bus- Schnitt- stelle
	Pro- zess	Transis- toren	Die- Fläche	ROPs	Unified-Shader			Textur- einheiten	Tensor- kerne	RT- Kerne		DirectX	OpenGL	OpenCL	CUDA	Vulkan
	Pro- zess	Transis- toren	Die- Fläche	ROPs	GPC	SM	ALUs	Textur- einheiten	Tensor- kerne	RT- Kerne		DirectX	OpenGL	OpenCL	CUDA	Vulkan
AD102^[11]	TSMC N4	76,3 Mrd.	609 mm²	192	12	144	18432	576	576	144	96 MiB	12.2	4.6	3.0	8.9	1.3	VP12	PCIe 4.0 ×16
AD103^[12]		45,9 Mrd.	379 mm²	112	07	080	10240	320	320	080	64 MiB
AD104^[13]		35,8 Mrd.	295 mm²	080	05	060	07680	240	240	060	48 MiB
AD106^[14]		22,9 Mrd.	190 mm²	048	03	036	04608	144	144	036	32 MiB							PCIe 4.0 ×8
AD107^[15]		18,9 Mrd.	146 mm²	032	02	024	03072	096	096	024	32 MiB							PCIe 4.0 ×8

Schließen