NVIDIA GeForce RTX 20系列,是由NVIDIA繼GeForce GTX 10系列後開發的圖形處理器系列。於2018年8月20日的Gamescom(科隆遊戲展)上發布。[1][2][3]本系列首發產品是GeForce RTX 2080及2080Ti,2018年9月20日正式發售[4]。此系列產品新命名為RTX,而未沿用推出多年的GTX,以突顯支援光線跟蹤的特色。
此條目翻譯品質不佳。 (2018年9月7日) |
發布日期 | 2018年9月20日 2019年7月9日 (Super系列) |
---|---|
代號 | TU10x |
架構 | Turing |
產品系列 | GeForce RTX |
電晶體 |
|
製造工藝 | 台積電 12nm(FinFET) |
顯示卡 | |
中階GPU | GeForce RTX 2050 GeForce RTX 2060 GeForce RTX 2060 Super |
高端GPU | GeForce RTX 2070 GeForce RTX 2070 Super GeFroce RTX 2080 GeForce RTX 2080 Super |
旗艦GPU | GeForce RTX 2080 Ti NVIDIA TITAN RTX |
API支援 | |
Direct3D | Direct3D 12 (12_2) |
OpenGL | OpenGL 4.6 |
OpenCL | OpenCL 1.2 |
Vulkan | Vulkan 1.2 |
歷史 | |
前代產品 | GeForce 10系列 |
相關產品 | GeForce 16系列 |
後繼產品 | GeForce 30系列 |
架構特性
RTX 20系列基於圖靈微架構(Turing),具有即時光線追蹤(Ray tracing)功能。[5]通過使用RT核心(光線追蹤運算核心)可以加速這一過程。這些核心能夠高效處理四元樹和球形階層,並在碰撞類比的過程中更快地為三角面組成的立體模型進行物體碰撞類比。
RT核心的光線追蹤功能在類比反射、折射和陰影的操作上可以取代傳統立方體貼圖和深度貼圖的光柵技術。從光線追蹤運算得到的資訊可以增強陰影使畫面更加逼真,尤其是可以將發生於螢幕畫面以外的動作通過陰影和光線反射彩現到畫面之中。
張量運算核心(Tensor Core)進一步加速了光線追蹤,並用於填充部分彩現圖像中的空白,這種技術被稱為「降噪」。張量核心原是為深度學習而設計的,例如學習如何提高圖像的解析度。但通常消費者的張量核心主要是執行一些已經完成的深度學習模型,這些模型是在超級電腦進行分析和解決的,超級電腦確定如何實現這些目標的方法,例如學習如何提高圖像的解析度,然後由消費者的張量核心實際使用這個方法,也就是使用超級電腦找到的方法來提高圖像的解析度。
因此,圖靈架構的光線追蹤特性,實際上是舊有光線追蹤技術與近年興起的人工智慧(AI)、深度學習結合的產物,先是利用光線追蹤專用的運算單元RT core生成圖像的關鍵要素,剩餘的非關鍵要素則是交由深度學習運算單元Tensor Core來補全,而圖像中的關鍵要素,也藉由Tensor Core執行相關的深度學習程式來決定。除此以外,Tensor Core還被用於執行消除混疊的深度學習程式(深度學習超級採樣,DLSS),來柔化畫面鋸齒邊緣。[6]
將深度學習、光線追蹤用於畫面運算雖然不是首個,NVIDIA早在基於帕斯卡、伏打圖形處理微架構的GeForce GTX TITAN系列上有先行鋪路,光線追蹤更是早已有之的技術,只是當時裝置的效能僅能到作生成靜態畫面之用,而本代GeForce RTX系列則是首個在畫面處理中大量使用深度學習技術、引入與深度學習相結合的光線追蹤實時動態畫面技術的圖形處理器。不過它仍然保留了效能強勁、規格龐大的傳統光柵化彩現3D畫面所需的運算組件。[7]
細節
- 採用台積電12nm FFN製程打造,由伏特微架構使用的12nm FFC製程改進(但本質上依舊是台積電16nm FF+製程的延伸版本),效能是後者的1.1倍,功耗只有後者的70%,核心面積則可以縮小20%
- 為容納數量龐大的運算單元,核心面積相比帕斯卡微架構的大幅增加,由GP102(GeForce GTX 1080Ti)的471mm2增加至TU102(GeForce RTX 2080Ti)的754mm 2
- CUDA 7.5
- 採用全新的SM陣列設計: TPC包含了兩個SM單元(Pascal為1個),SM單元重新分配為64個FP32、64個INT32、8個Tensor Core 、1個RT Core ,同時添加了獨立的INT數據路徑,支援FP32和INT32操作的並發執行。
- 為共享暫存、一級暫存、紋理暫存引入了統一架構,一級暫存與共享暫存大小是靈活可變的,可以根據需要在64+32KB或者32+64KB之間變換,讓一級暫存更充分利用資源,也減少一級暫存延遲,並提供比Pascal GPU中使用的一級暫存更高的頻寬,同時二級暫存容量提升。
- Tensor Core(張量核心) : 負責人工智慧、神經網路運算,增加了新的INT8和INT4精度模式,FP16半精度也能夠被完整支援通常會用到矩陣融合乘加(FMA)運算,新的INT8精度模式的工作速率是此速率的兩倍,張量核心為矩陣運算提供了顯著的加速,除了新的神經圖形功能外,還用於深度學習訓練和推理操作。
- NGX (Neural Graphics Acceleration)框架: 利用張量核心,在遊戲中實現深度學習功能,GeForce Experience會自動匹配Turing顯示卡並且下載可用的NGX Core軟體包,對應如DLSS、AI InPainting、AI Super Rez、AI Slow-Mo等功能。
- DLSS (深度學習超級採樣) : 反鋸齒技術,利用張量核心實現在較低的輸入樣本數下更快地彩現,具有與64×超級採樣畫面相同品質的細節,還可以避免TAA產生的運動模糊等問題,相比TAA等其它反鋸齒技術,彩現能力得到大幅提升。
- AI InPainting : 演算法利用大量真實世界圖像的訓練,可以補全圖片中缺失的內容,也可以移除相片的噪點、失真部分以及增強相片的解析度等功能。
- AI Super Rez : 將原影片的解析度清晰地放大2倍、4倍、8倍,圖像更加銳利。
- AI Slow-Mo : 將普通常見的30fps進行智慧型補訊框計算,可以獲得240/480fps的慢動作影片,而不需要專門高影格率攝影機。
- RT Core : 專門為光線追蹤計算,是一條特異化的專用流水線,用於加速計算邊界體積層次(BVH)遍歷以及光線和三角求交(光線投射)。
- GDDR6顯示記憶體的支援
- 附有影像串流壓縮技術(Display Stream Compression,DSC)1.2版的DisplayPort 1.4a
- 功能集PureVideo的硬體加速視訊解碼
- NVLink連接器(與伏打微架構的不相容)
- VirtualLink VR
- GPU Boost 4[8]
設計
RTX是GeForce 20系列引入的開發平台。RTX的光線追蹤示範程式中使用了微軟的DXR,OptiX和Vulkan來進行光線追蹤。[9]
晶片規格
另見
參見
擴充連結
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.