Ada Lovelace 是Nvidia开发的图形处理单元(GPU) 微架构,用于取代上一代安培架构,于 2022 年 9 月 20 日正式宣布。架构名称首次同时包含名字和姓氏,它以英国数学家Ada Lovelace [1]的名字命名,她通常被认为是第一位计算机程序员。 Nvidia 同时发布了使用该架构的GeForce 40 系列消费级显卡 [2]和 RTX 6000 Ada Generation 专业工作站显卡。 [3]据透露,新的 GPU 使用台积电新的5 纳米“4N”工艺,与 Nvidia 用于上一代安培架构的三星8 纳米和台积电N7工艺相比,效率更高。 [4]
发布于 | 2022 年 10 月 12 日 |
---|---|
设计者 | Nvidia |
制造商 | |
制造工艺 | TSMC 4N |
产品系列 | |
台式机系列 | |
专业级/
工作站系列 |
|
服务器/
数据中心系列 |
|
技术规格 | |
时钟频率 | 735 MHz - 2640 MHz |
一级缓存 | 128 KB (每组 SM) |
二级缓存 | 32 MB - 96 MB |
显存类型 | |
显存频率 | 21 - 22.4 Gbps |
PCIe版本 | PCIe 4.0 |
图形API | |
DirectX | DirectX 12 Ultimate (12.2) |
Direct3D | Direct3D 12 |
Shader Model | Shader Model 6.7 |
OpenCL | OpenCL 3.0 |
OpenGL | OpenGL 4.6 |
CUDA | Compute Capability 8.9 |
Vulkan | Vulkan 1.3 |
通用计算API | |
CUDA | CUDA Toolkit 11.6 |
DirectCompute | 支持 |
媒体编解码引擎 | |
编码引擎 | |
解码引擎 | |
色彩深度 |
|
编码器 | NVENC |
显示输出 | |
历史 | |
前代产品 | Ampere |
变体 | Hopper (数据中心) |
背景
Nvidia 首席执行官黄仁勋在 2022 年 9 月 20 日的 GTC 2022 主题演讲中宣布了 Ada Lovelace 架构,该架构为 Nvidia 的游戏、工作站和数据中心 GPU 提供动力。 [5]
微架构详解
Ada Lovelace 架构的架构改进包括以下内容: [6]
每个 SM 单元包含 128 个 CUDA 核心。
Ada Lovelace 采用第三代光追单元。 其中,RTX 4090 具有 128 个光追单元,而上一代 RTX 3090 Ti 为 84 个。这 128 个光追单元可以提供高达 191 TFLOPS 的计算能力,其中每个光追单元 1.49 TFLOPS。 [10] 全新的光线追踪管线引入了着色器执行重排序 (SER),Nvidia 声称它在光追工作负载中能提供 2 倍的性能提升。 [5]
第四代张量核心引入了基于 AI 的 DLSS 3 帧生成技术。Ada Lovelace 中每个 SM 单元包含 4 个张量核心,与上代安培架构非常相似。但是由于包含了更多的 SM 单元,张量核心的总数对比上代有所增加。
Ada Lovelace 架构的核心频率显著提高,RTX 4090 的基础频率甚至高于 RTX 3090 Ti 的加速 (Boost) 频率。
完整版的 AD102 核心拥有高达 96 MB 的二级缓存,相比基于安培架构的 GA102 核心,有着十六倍的提升。 [11]相较于那些通过较慢GDDR显存读取数据的GPU,新的GPU能够快速访问大量二级缓存,这有利于复杂的操作,例如光线追踪。与此同时,通过减少需要频繁访问的重要数据对显存的依赖,较低位宽的显存也可以和大容量二级缓存协同工作。
每个内存控制器占用一个 32 位连接,最高 12 个连接,组合得到内存总线位宽为 384 位。 Ada Lovelace 架构支持GDDR6或GDDR6X显存。台式机 GeForce RTX 40 系列采用 GDDR6X 显存,而相应的移动版本和 RTX A6000 工作站 GPU 则使用更节能的 GDDR6 显存。
与上一代相比,Ada Lovelace 架构能够使用更低的电压。 [5] Nvidia 声称,RTX 4090 在与上一代旗舰 RTX 3090 Ti 使用相同 450W 功耗的情况下,性能提高了 2 倍。 [12]
能耗比的提升归功于更先进的制造工艺。 Ada Lovelace 架构采用TSMC为Nvidia定制的顶尖4N工艺制造。上一代安培架构从 2018 年开始使用三星基于 8nm 的8N工艺节点,在该架构推出时已经是两年前的制造工艺。 [13] [14] 此外,具有 763 亿个晶体管的 AD102 芯片,晶体管密度为 1.255 亿/mm 2 ,比 GA102 的 4510 万/mm 2密度增加了 178%。
Ada Lovelace 架构采用了新的第 8 代 Nvidia NVENC视频编码器,以及从安培架构沿用下来的第 7 代 NVDEC 视频解码器。 [15]
NVENC AV1硬件编码的加入,使得新架构支持高达 8K 60FPS 10 位色深。与H.264和H.265编解码器相比,能够以更低的比特率实现更高的视频保真度。 [16] Nvidia 声称其采用 Ada Lovelace 架构的 NVENC AV1 编码器比采用安培架构的 H.264 编码器效率高 40%。 [17]
Ada Lovelace 架构因仍旧使用 32Gbps 的旧 DisplayPort 1.4a,不支持具备更高数据带宽的DisplayPort 2.0接口而受到批评。 [18]因此,尽管 GPU 的性能能够达到更高的帧率,但依然会受到 DisplayPort 1.4a 的刷新率限制。反观同样于 2022 年 10 月发布的英特尔Arc GPU 却带有 DisplayPort 2.0 接口。在 Ada Lovelace 发布的两个月后, AMD对标的 RDNA 3 架构发布,RDNA 3 甚至支持 DisplayPort 2.1 。[19]
核心参数
芯片[20] | AD102 [21] | AD103 [22] | AD104 [23] | AD106 [24] | AD107 [25] |
---|---|---|---|---|---|
尺寸 | 608 mm2 | 378.6 mm2 | 295 mm2 | 190 mm2 | 146 mm2 |
晶体管 | 763亿 | 459亿 | 358亿 | 未知 | |
晶体管密度 | 1.255 亿/mm2 | 1.211 亿/mm2 | 1.214 亿/mm2 | ||
图形处理集群
(GPC) |
12 | 7 | 5 | 3 | 2 |
流处理器
(SM) |
144 | 80 | 60 | 36 | 24 |
CUDA
核心 |
18432 | 10240 | 7680 | 4608 | 3072 |
纹理映射单元 | 576 | 320 | 240 | 144 | 96 |
渲染输出单元 | 192 | 112 | 80 | 64 | 32 |
张量核心 | 576 | 320 | 240 | 144 | 96 |
光追单元 | 144 | 80 | 60 | 36 | 24 |
一级缓存 | 18 MB | 10 MB | 7.5 MB | 4.5 MB | 3 MB |
每个 SM 单元 128 KB | |||||
二级缓存 | 96 MB | 64 MB | 48 MB | 32 MB |
基于 Ada Lovelace 架构的产品
- GeForce 40 系列
- GeForce RTX 4050(移动端)(AD107)
- GeForce RTX 4060(移动端)(AD107)
- GeForce RTX 4070(移动端)(AD106)
- GeForce RTX 4070 (AD104)
- GeForce RTX 4070 Ti (AD104)
- GeForce RTX 4080(移动端)(AD104)
- GeForce RTX 4080 (AD103)
- GeForce RTX 4090(移动端)(AD103)
- GeForce RTX 4090 (AD102)
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.