圖靈微架構(英語:Turing microarchitecture),是由輝達公司(nVIDIA)所開發的一種GPU微架構,用以取代伏打微架構(Volta microarchitecture)。命名為「圖靈」以向英國電腦科學家艾倫·圖靈(Alan Turing)致敬。這個微架構於 2018 年 8 月在 SIGGRAPH 2018 年會上首次在面向工作站的 Quadro RTX 卡中推出[2], 並於一周後在 科隆遊戲展(Gamescom)上在消費類 GeForce RTX 20 系列顯示卡中推出[3]。圖靈微架構以其 HPC 專有前身的前期工作為基礎,推出了首款能夠實現即時光線追蹤的消費產品,這是電腦繪圖產業的長期目標。關鍵要素包括專用人工智能處理器("Tensor cores")和專用光線追蹤處理器("RT Cores")。 圖靈微架構利用 DXR、OptiX 和 Vulkan 來存取光線追蹤。 2019年2月,Nvidia發表了NVIDIA GeForce 16系列GPU,採用了新的圖靈設計,但缺乏光線追蹤(RT)和張量(Tensor)核心。
圖靈微架構採用台積電的 12 nm FinFET 半導體製造製程。 高階 TU102 GPU 包括使用此製程製造的 186 億個電晶體。 圖靈微架構也使用三星電子 (Samsung Electronics) 和先前的美光科技 (Micron Technology) 的 GDDR6 記憶體。
細節資訊
圖靈微架構結合了多種類型的專用處理器核心,並實現了即時光線追蹤技術(儘管大多數仍限於對物理建模的材質、室內反射和照明)[4]。這得益於新的 RT 核心的使用,這些核心被設計用於處理四叉樹和球形階層,並為單個三角形的碰撞測試提速。
圖靈微架構的特性包括:
- CUDA 核心(串流多處理器)
- 計算能力(Compute Capability):7.5
- 傳統的柵格化着色器和計算
- 整數和浮點操作的並列執行(繼承自伏打微架構)
- 光線追蹤(RT)核心
- 張量(AI 中的 Tensor)核心[6]
- GDDR6/HBM2 支援的主記憶體控制器
- 帶有顯示壓縮流(DSC 1.2)技術的 1.4a 版本 DisplayPort 介面
- 支援使用 PureVideo 技術的 Feature Set J 來進行硬件加速的影片解碼
- GPU Boost 4
- 支援通過 NVLink Bridge 實現多個顯示卡的連接,並使用 VRAM 堆疊的方式匯集多個顯示卡的主記憶體
- VirtualLink 標準虛擬實境
- NVENC(NVIDIA Encoder)硬件編碼引擎
GDDR6 主記憶體由三星電子為 Quadro RTX 系列生產[7]。RTX 20 系列在最初發佈時使用美光的主記憶體晶片,在 2018 年 11 月換為三星晶片[8]。
NVIDIA 報告稱,在現有的軟件標題中,柵格化(使用 CUDA 技術)的效能相較於前一代提升了大約 30-50%[9][10]。這表示圖靈架構的 NVIDIA GPU 在處理現有軟件時,通過柵格化技術取得了相當可觀的效能提升,提高了圖形處理的效率。
RT 核心執行的光線追蹤可用於生成反射、折射和陰影,從而取代一些傳統的柵格技術,如立方體貼圖(Cube maps)和深度貼圖(Depth maps)。需要注意的是,光線追蹤技術並非完全替代柵格化技術,光線追蹤收集到的資訊可以用於增強着色,使圖像更加寫實,特別是在處理攝像放像機視野之外發生的動作(off-camera action)時。NVIDIA 表示,光線追蹤效能相較上一代消費者架構 Pascal 提高了約 8 倍。
利用張量核心,最終圖像的生成能夠得到進一步加速,這些核心用於填充部分渲染圖像中的空白,這一技術被稱為去噪(de-noising)。張量核心負責執行深度學習的結果運算結果,對處理特定任務的方法進行編碼,使得系統能夠理解和應用這些方法。這種編碼過程使得系統能夠更有效地執行某些任務,例如增加特定應用程式或遊戲生成圖像的解像度。在張量核心的主要用途中,需要解決的問題會在超級電腦上進行分析,該電腦通過範例學習期望的結果,確定實現這些結果的方法,隨後,這些方法通過驅動程式更新傳遞給消費者,最終由消費者的張量核心執行操作[9]。超級電腦本身使用了大量的張量核心。
圖靈晶粒(Turing dies)
晶粒 | TU102 | TU104 | TU106 | TU116 | TU117 |
---|---|---|---|---|---|
晶粒大小 | 754 mm2 | 545 mm2 | 445 mm2 | 284 mm2 | 200 mm2 |
電晶體數量 | 18.6B | 13.6B | 10.8B | 6.6B | 4.7B |
電晶體密度 | 24.7 MTr/mm2 | 25.0 MTr/mm2 | 24.3 MTr/mm2 | 23.2 MTr/mm2 | 23.5 MTr/mm2 |
圖形處理叢集 (GPC) |
6 | 6 | 3 | 3 | 2 |
流處理多處理器 (SM) |
72 | 48 | 36 | 24 | 16 |
CUDA核心數 | 4608 | 3072 | 2304 | 1536 | 1024 |
紋理對映單元 (TMU) |
288 | 192 | 144 | 96 | 64 |
渲染輸出單元 (ROP) |
96 | 64 | 64 | 48 | 32 |
張量核心 | 576 | 384 | 288 | 不適用 | |
光線追蹤核心 | 72 | 48 | 36 | ||
L1 快取 | 6.75 MB | 4.5 MB | 3.375 MB | 2.25 MB | 1.5 MB |
96 KB per SM | |||||
L2 快取 | 6 MB | 4 MB | 4 MB | 1.5 MB | 1 MB |
最大熱設計功耗 (Max TDP) |
280 W | 250 W | 185 W | 125 W | 75 W |
開發
圖靈微架構的開發平台是 RTX。可以通過 Microsoft 的 DXR(DirectX Raytracing),OptiX, 以及使用 Vulkan 拓展(最後者在 Linux 驅動上也可以使用)來呼叫 RTX 的光線追蹤功能[11]。AI 加速功能可以通過 NGX 整合到應用程式中[12]。網格着色器(Mesh Shader)和着色率圖像(Shading Rate Image)功能可以在 Windows 和 Linux 平台上使用 DX12、Vulkan 和 OpenGL 擴充來訪問[13]。
採用圖靈微架構的產品
- GeForce MX 系列
- GeForce MX450 (Mobile)
- GeForce MX550 (Mobile)
- GeForce 16 系列
- GeForce GTX 1630
- GeForce GTX 1650 (Mobile)
- GeForce GTX 1650
- GeForce GTX 1650 Super
- GeForce GTX 1650 Ti (Mobile)
- GeForce GTX 1660
- GeForce GTX 1660 Super
- GeForce GTX 1660 Ti (Mobile)
- GeForce GTX 1660 Ti
- GeForce 20 系列
- GeForce RTX 2060 (Mobile)
- GeForce RTX 2060
- GeForce RTX 2060 Super
- GeForce RTX 2070 (Mobile)
- GeForce RTX 2070
- GeForce RTX 2070 Super (Mobile)
- GeForce RTX 2070 Super
- GeForce RTX 2080 (Mobile)
- GeForce RTX 2080
- GeForce RTX 2080 Super (Mobile)
- GeForce RTX 2080 Super
- GeForce RTX 2080 Ti
- Titan RTX
- Nvidia Quadro
- Quadro RTX 3000 (Mobile)
- Quadro RTX 4000 (Mobile)
- Quadro RTX 4000
- Quadro RTX 5000 (Mobile)
- Quadro RTX 5000
- Quadro RTX 6000 (Mobile)
- Quadro RTX 6000
- Quadro RTX 8000
- Quadro T1000 (Mobile)
- Quadro T2000 (Mobile)
- T400
- T400 4GB
- T500 (Mobile)
- T600 (Mobile)
- T600
- T1000
- T1000 8GB
- T1200 (Mobile)
- Nvidia Tesla
- Tesla T4
參考資料
外部連結
Wikiwand - on
Seamless Wikipedia browsing. On steroids.