NVIDIA GeForce RTX 20系列,是由NVIDIA继GeForce GTX 10系列后开发的图形处理器系列。于2018年8月20日的Gamescom(科隆游戏展)上发布。[1][2][3]本系列首发产品是GeForce RTX 2080及2080Ti,2018年9月20日正式发售[4]。此系列产品新命名为RTX,而未沿用推出多年的GTX,以突显支持光线跟踪的特色。
此条目翻译质量不佳。 (2018年9月7日) |
发布日期 | 2018年9月20日 2019年7月9日 (Super系列) |
---|---|
代号 | TU10x |
架构 | Turing |
产品系列 | GeForce RTX |
电晶体 |
|
制造工艺 | 台积电 12nm(FinFET) |
显卡 | |
中端GPU | GeForce RTX 2050 GeForce RTX 2060 GeForce RTX 2060 Super |
高端GPU | GeForce RTX 2070 GeForce RTX 2070 Super GeFroce RTX 2080 GeForce RTX 2080 Super |
旗舰GPU | GeForce RTX 2080 Ti NVIDIA TITAN RTX |
API支持 | |
Direct3D | Direct3D 12 (12_2) |
OpenGL | OpenGL 4.6 |
OpenCL | OpenCL 1.2 |
Vulkan | Vulkan 1.2 |
历史 | |
前代产品 | GeForce 10系列 |
相关产品 | GeForce 16系列 |
后继产品 | GeForce 30系列 |
架构特性
RTX 20系列基于图灵微架构(Turing),具有实时光线跟踪(Ray tracing)功能。[5]通过使用RT核心(光线追踪运算核心)可以加速这一过程。这些核心能够高效处理四叉树和球形层次结构,并在碰撞模拟的过程中更快地为三角面组成的立体模型进行物体碰撞模拟。
RT核心的光线追踪功能在模拟反射、折射和阴影的操作上可以取代传统立方体贴图和深度贴图的光栅技术。从光线追踪运算得到的资讯可以增强阴影使画面更加逼真,尤其是可以将发生于屏幕画面以外的动作通过阴影和光线反射渲染到画面之中。
张量运算核心(Tensor Core)进一步加速了光线追踪,并用于填充部分渲染图像中的空白,这种技术被称为“降噪”。张量核心原是为深度学习而设计的,例如学习如何提高图像的分辨率。但通常消费者的张量核心主要是执行一些已经完成的深度学习模型,这些模型是在超级计算机进行分析和解决的,超级计算机确定如何实现这些目标的方法,例如学习如何提高图像的分辨率,然后由消费者的张量核心实际使用这个方法,也就是使用超级计算机找到的方法来提高图像的分辨率。
因此,图灵架构的光线跟踪特性,实际上是旧有光线跟踪技术与近年兴起的人工智慧(AI)、深度学习结合的产物,先是利用光线跟踪专用的运算单元RT core生成图像的关键要素,剩余的非关键要素则是交由深度学习运算单元Tensor Core来补全,而图像中的关键要素,也借由Tensor Core执行相关的深度学习程序来决定。除此以外,Tensor Core还被用于执行消除混叠的深度学习程序(深度学习超级采样,DLSS),来柔化画面锯齿边缘。[6]
将深度学习、光线跟踪用于画面运算虽然不是首个,NVIDIA早在基于帕斯卡、伏打图形处理微架构的GeForce GTX TITAN系列上有先行铺路,光线跟踪更是早已有之的技术,只是当时装置的性能仅能到作生成静态画面之用,而本代GeForce RTX系列则是首个在画面处理中大量使用深度学习技术、引入与深度学习相结合的光线跟踪实时动态画面技术的图形处理器。不过它仍然保留了性能强劲、规格庞大的传统光栅化渲染3D画面所需的运算组件。[7]
细节
- 采用台积电12nm FFN制程打造,由伏特微架构使用的12nm FFC制程改进(但本质上依旧是台积电16nm FF+制程的延伸版本),性能是后者的1.1倍,功耗只有后者的70%,核心面积则可以缩小20%
- 为容纳数量庞大的运算单元,核心面积相比帕斯卡微架构的大幅增加,由GP102(GeForce GTX 1080Ti)的471mm2增加至TU102(GeForce RTX 2080Ti)的754mm 2
- CUDA 7.5
- 采用全新的SM数组设计: TPC包含了两个SM单元(Pascal为1个),SM单元重新分配为64个FP32、64个INT32、8个Tensor Core 、1个RT Core ,同时添加了独立的INT数据路径,支持FP32和INT32操作的并发执行。
- 为共享暂存、一级暂存、纹理暂存引入了统一架构,一级暂存与共享暂存大小是灵活可变的,可以根据需要在64+32KB或者32+64KB之间变换,让一级暂存更充分利用资源,也减少一级暂存延迟,并提供比Pascal GPU中使用的一级暂存更高的带宽,同时二级暂存容量提升。
- Tensor Core(张量核心) : 负责人工智慧、神经网络运算,增加了新的INT8和INT4精度模式,FP16半精度也能够被完整支持通常会用到矩阵融合乘加(FMA)运算,新的INT8精度模式的工作速率是此速率的两倍,张量核心为矩阵运算提供了显著的加速,除了新的神经图形功能外,还用于深度学习训练和推理操作。
- NGX (Neural Graphics Acceleration)框架: 利用张量核心,在游戏中实现深度学习功能,GeForce Experience会自动匹配Turing显卡并且下载可用的NGX Core软件包,对应如DLSS、AI InPainting、AI Super Rez、AI Slow-Mo等功能。
- DLSS (深度学习超级采样) : 反锯齿技术,利用张量核心实现在较低的输入样本数下更快地渲染,具有与64×超级采样画面相同质量的细节,还可以避免TAA产生的运动模糊等问题,相比TAA等其它反锯齿技术,渲染能力得到大幅提升。
- AI InPainting : 算法利用大量真实世界图像的训练,可以补全图片中缺失的内容,也可以移除照片的噪点、失真部分以及增强照片的清晰度等功能。
- AI Super Rez : 将原影片的分辨率清晰地放大2倍、4倍、8倍,图像更加锐利。
- AI Slow-Mo : 将普通常见的30fps进行智慧补帧计算,可以获得240/480fps的慢动作影片,而不需要专门高帧率摄影机。
- RT Core : 专门为光线追踪计算,是一条特异化的专用流水线,用于加速计算边界体积层次(BVH)遍历以及光线和三角求交(光线投射)。
- GDDR6显示内存的支持
- 附有影像流压缩技术(Display Stream Compression,DSC)1.2版的DisplayPort 1.4a
- 功能集PureVideo的硬件加速视频解码
- NVLink连接器(与伏打微架构的不兼容)
- VirtualLink VR
- GPU Boost 4[8]
设计
RTX是GeForce 20系列引入的开发平台。RTX的光线追踪示范程序中使用了微软的DXR,OptiX和Vulkan来进行光线追踪。[9]
晶片规格
另见
参见
扩展链接
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.