NVIDIA GeForce 900系列,是輝達研發的圖形處理器產品系列,用於桌上型電腦平台和筆記型電腦平台。此代顯示核心將採用第二代Maxwell微架構(晶片代號將以『GM』開頭),以蘇格蘭理論物理學家詹姆斯·克拉克·麥克斯韋的名字命名。2010年,NVIDIA將此時代Maxwell核心的首發旗艦級產品命名為GeForce 900系列,分別為桌面平台的GTX 970、GTX 980、GTX 980 Ti、GTX TITAN X、GTX 950和GTX 960以及行動平台的GTX 950M GTX 960M GTX965M GTX 970M 和GTX 980M、GTX 980 [1][2]GeForce 800系列則全為使用在筆記型電腦OEM市場上的移動式顯示核心。
發布日期 | 2014年9月18日 |
---|---|
代號 | GM20x |
架構 | Maxwell |
產品系列 | GeForce GTX |
電晶體 |
|
製造工藝 | 台積電 28nm |
顯示卡 | |
入門GPU | GeForce 910M GeForce 920M GeForce 920MX GeForce 930M GeForce 930MX GeForce 940M GeForce 940MX |
中階GPU | GeForce GTX 950 GeForce GTX 960 行動平台: GTX 950M GTX 960M GTX 965M |
高端GPU | GeForce GTX 970 GeForce GTX 980 行動平台: GTX 970M GTX 980M |
旗艦GPU | GeForce GTX 980 Ti NVIDIA TITAN X |
API支援 | |
Direct3D | Direct3D 12 |
OpenGL | OpenGL 4.6 |
OpenCL | OpenCL 1.2 |
Vulkan | Vulkan 1.2 |
歷史 | |
前代產品 | GeForce 700系列 |
後繼產品 | GeForce 10系列 |
概觀
2010年9月NVIDIA宣布下一代顯示核心架構『Maxwell』。[3]首款基於『Maxwell』架構的消費級顯示核心的產品將於2014年早期發賣,是為GeForce GTX 750/750 Ti。[4]
第二代『Maxwell』介紹了幾種新技術: 動態超分辨力、第三代三角洲顏色壓縮和多圖元程式設計採樣、Nvidia VXGI(Real-Time-Voxel-Global Illumination) 和MFAA。[5]此外增加了HDMI 2.0支援。[6]
架構特性
GeForce GTX 980/970使用「GM204」核心,是Maxwell GPU架構的第二作。它們分別採用了GM204的兩個細分型號 GM204-400-A1 以及 GM204-200-A1 晶片,擁有52億的電晶體規模,晶片面積為398平方毫米(此為NVIDIA公布資料)。由於有製造「GK110」這種大面積晶片的經驗,加上面向消費級遊戲應用市場而削減該領域中甚少使用的雙精度浮點數運算電路單元,使得GPU可以更專精於安放遊戲應用更常用的單精度浮點運算電路單元、紋理單元及彩現輸出單元。這些因素成了「GM204」晶片用於遊戲娛樂應用時,擁有卓越效能功耗比的重要因素之一。
與Kepler架構的GK110相比,儘管GM204架構的運算資源總量從2880個ALU(NVIDIA稱為CUDA核心)分別下降到了GeForce GTX 980的2048以及GeForce GTX 970的1664個,Texture Filter Unit則由240個下降到了128個以及104個,但構成後端的ROP在GM204當中被提升到了64個,更龐大的ROP陣列為GM204帶來了理想的像素處理能力。
GeForce GTX 980/970均擁有4個64bit雙連結視訊記憶體控制器組合形成的256bit視訊記憶體控制單元,也都採用了4096MB的尺寸的視訊記憶體體系。
新的SMM單元較之原先的SMX單元來了一次結構變動,在保留完整的幾何前端的前提下,SMM陣列在內部將ALU團簇再次劃分成了4個並列的獨立子團簇SM,每個SM包含32個ALU,並且都擁有獨立的Scheduler/Dispatch以及Register,每兩組SM共享一組統一的Texture/L1 D\$ cache,這與SMX單元192個ALU共享同一組Scheduler、Dispatch、L1 D\$ cache以及Register形成了鮮明的對比,而且也進一步提升了每個ALU所能夠獲得的Register資源量。
GeForce 900系列目前支援OpenGL 4.5、DirectX 11.3以及OpenCL 1.2,未來可支援DirectX 12。[7][8][9]
產品介紹
基於Maxwell架構的顯示核心GM204的首發產品是GeForce GTX 970和GTX 980,它們均於2014年9月19日發布。隨後還有GeForce GTX 960,該產品於2015年初發佈;之後還有2015年6月1日發布的GTX 980 TI以及8月20日發布的GTX 950。而頂級顯示核心GM200,被冠以GeForce GTX TITAN X的名號於2015年3月5日公布,除了TITAN X之外,其餘的顯示卡會有不同的廠商生產自製顯示卡,還會有背板支撐。
押後發表的GeForce GTX 960、950還支援HEVC/H.265硬體解碼,以前發表的型號則只支援HEVC/H.265硬體編碼。
- GeForce GTX TITAN X[10] - 2015年3月GDC大會上NVIDIA公佈此顯示卡的訊息,顯示核心代號「GM200」,首款產品是為GeForce GTX TITAN X。此顯示核心擁有80億個電晶體,搭配12GiB容量的顯示記憶體;[11]仍使用台積電28奈米製程;供電僅使用了6pin+8pin的輔助供電,功耗250瓦,而12GiB的顯示記憶體容量,則各佈置於顯示卡的正背兩面,外觀保留和TITAN系列的一貫風格但從銀色變成了啞光黑,相對於上一代的TITAN(Black、Z)以及GTX980而言沒有背板支撐和散熱。[12][13][14]另外,GTX TITAN X還將配備低溫散熱風扇停轉的功能。[15]
- GeForce GTX 980 TI - 2015年6月1日發售,核心代號與GTX TITAN X一樣是「GM200」、80億個電晶體、6GiB顯示記憶體,但一共只有2816個CUDA核心、192個紋理貼圖單元、96個輸出彩現單元,不過其餘的規格與熱設計功耗跟TITAN X大致相同,而且與GTX TITAN X相比效能也相差不多,其它的廠商會生廠自製顯示卡,顯示時脈會比公板還要高,也會有背板支撐。
- GeForce GTX 980[16]和GeForce GTX 970[17] - 兩者均於2014年9月18日發售,核心代號均為「GM204」之顯示核心(內建52億個電晶體)以及4GiB、等效時脈7010MHz的GDDR5顯示記憶體。但GTX 980的GM204顯示核心是完整版的,共16組SMM陣列(一共2048個CUDA核心、128個紋理貼圖單元)、64個彩現輸出單元、2MiB二級快取,記憶體位寬為256位元,頻寬224GB/s;而GTX 970的GM204核心則相對完整的GTX 980而言刪減了3組SMM陣列(這裡共384個CUDA核心、24個紋理貼圖單元(TMU))以及8個輸出彩現單元(ROP)、二級快取也從2MiB縮減至1.75MiB,記憶體位寬為224位元+32位元的結構,頻寬192GB/s+28GB/s。
- GeForce GTX 960[18]以及GeForce GTX 950[19] - 前者2015年1月22日發售,核心代號「GM206」,內建有29.4億顆電晶體,完整規格,擁有8組SMM單元(共1024個CUDA核心、64個紋理貼圖單元)、32個輸出彩現單元(ROP),使用2GiB或4GiB容量、等效時脈7010MHz規格的GDDR5顯示記憶體,記憶體位寬128位元、頻寬112GB/s;除了核心時脈以外,規格上幾乎是「GM204」的一半,用作取代GeForce GTX 760及其衍生型號。而GTX 950則於2015年8月20日發售,核心代號與GTX 960的同為「GM206」,但比GTX 960的少了兩組SMM單元(而ROP單元數量維持不變),時脈參數也比GTX 960的來得低,是GeForce 900系列中階產品,用來取代750/750TI,只不過熱設計功耗進一步降低到90W,僅需要接一個6PIN外掛電源接頭;此款型號恢復了在650/650TI以及750/750TI中取消的SLI功能。
GeForce GTX 970 的規格參數爭議主要在於顯示記憶體、ROP單元、二級快取的數量/容量上實際產品與發布宣傳時公佈的不一致。其中,特別是顯示記憶體存取結構,因為沒詳細公佈出來,而導致用家在一些使用場合上觀察到顯示記憶體存取效能上有差異:GTX 970搭載了4GiB容量的GDDR5顯示記憶體,而實際上只有3.5GiB的容量可以全速存取,越過了3.5GiB容量的界限以後的區塊幾乎沒有存取動作,儘管一般使用甚少會越過此界限,但使用這剩餘的0.5GiB容量的顯示記憶體存取效能明顯下降了。其後越來越多的效能測試以及調查結果,使輝達承認,GTX 970的顯示記憶體的使用超過3.5GiB容量界限以後效能下降的事實,並對此做出解釋道,顯示卡正式發售前沒有事先通知或公佈Maxwell架構的顯示核心更精細的核心單元遮蔽方式(這種遮蔽方式更有利於良品率和成本控制)。[20][21][22][23]
顯示核心硬體後端的參數,最初輝達的發布會上顯示,GTX 970和GTX 980是一樣的。而實際上,970後端的ROP單元僅有56個而非980的64個,二級快取也僅有1.75MiB而非980的2MiB,這些後端單元數量/容量上的差異導致了970上的4GiB顯示記憶體定址與980的有差異,使得4GiB中的3.5GiB可供顯示核心全速存取,剩餘的0.5GiB區段的效能只有全速3.5GiB區段的1/7。[24] 儘管這一結果不影響此前幾乎所有的GTX 970效能測試結果,而輝達也對規格參數錯誤一事做出道歉並承諾下次會準確公佈各型號圖形處理器的參數,並在驅動程式的開發上對GTX 970的顯示記憶體使用作特別的最佳化,盡可能避免使用4GiB中最後512MiB的低速區段以減輕其效能衝擊。[25]然而輝達又改口稱,因內部的溝通不暢,此前發布供GeForce900系列使用的驅動程式中實際已對GTX 970的顯示記憶體使用做過最佳化,不再需要特別對待。[26]而輝達的討論社區中也有工作人員稱會對欲退貨的GTX 970買家提供協助[26][27]2015年2月26日,輝達的CEO黃仁勳在輝達的官方部落格上對該起失誤事件做出正式道歉。[28][29]
輝達發布的勘誤聲明中,表示SMM中各單元是可進行單獨的遮蔽,每一個單元包括256KiB的二級快取和8個ROP單元後端,而遮蔽這些單元並不影響顯示記憶體的記憶體控制器。[30]這樣做的代價是記憶體匯流排被分為高速區段和低速區段,這兩段不能夠同時進行存取操作,最多只能在一個區段進行讀操作的同時另一區段進行寫操作,不能同時進行存取操作,是因為二級快取和ROP單元都管理著這些GDDR5記憶體控制器以共享在兩個GDDR5記憶體控制器和它們自己之間的讀迴圈通道和資料寫入匯流排,即一個64位元的記憶體控制器管轄最後512MiB慢速區段的和鄰近的3.5GiB高速區段的512MiB,共同由一組8個ROP單元和這0.25MiB的二級快取連接使用。[30]這樣做使得GTX 970可使用4GiB的顯示記憶體而非3GiB。簡單來說就是GTX 970上256位元寬度的GDDR5記憶體匯流排,有224位元連接3.5GiB的高速區段,有32位元連接512MiB的低速區段。[30][23]
部分早前購買GTX 970的用家,以及留意到這起事件的律師行,也就這起參數爭議事件涉嫌侵犯使用者知情權或對輝達發起集體訴訟,[31][32]儘管實際使用表明GTX 970顯示記憶體的特殊結構對效能影響並不高,只有1~3%,而非畫面卡頓[33][34],而輝達此前也有GeForce GTX 660使用非對稱顯示記憶體的先例。[35][36]
NVIDIA標榜「Maxwell」GPU微架構是可以完整支援DirectX 12。[37][38][39]但是,首款使用DirectX 12的遊戲——奇點灰燼,其開發商——Oxide Games遊戲工作室,在遊戲的開發階段,發現「Maxwell」架構GPU的顯示卡,並不能在DirectX 12下發揮出應有的效能(相比DirectX 11下並沒有明顯的效能進步)。[40][41]
Oxide Games表示,儘管NVIDIA的官方文宣上宣稱GeForce 900系列GPU能使用DirectX 12的所有功能,但是Maxwell的GPU,實際上並不能使用DirectX 12的核心功能——非同步運算以及非同步彩現管線,[38]而NVIDIA為了實現這些新功能,在驅動程式層級中安插了Shim(一種提供應用程式介面(即API)的驅動庫)中介層來實作它們,但這種實作方式,需要佔用一定的GPU運算資源。簡單來說,NVIDIA採用了軟體的方式實現DirectX 12的部分核心功能,因此會造成效能上的折損。[41]
而與之相對,Oxide Games則表示,AMD的GCN GPU架構中已經包含了非同步運算及彩現的硬體電路,[42]因此可以無需透過中介層,驅動程式可直接調用硬體電路單元來實作DirectX 12,儘管支援的功能層級是基本的Feture Level 12_0,因此GCN架構的GPU可以憑藉DirectX 12在效能測試抑或是遊戲效能中獲得較為明顯的效能提升。[41][43][44]
Oxide Games稱在於NVIDIA磋商解決效能問題時,卻遭到NVIDIA方面向工作室的施壓,要求在遊戲效能測試中不能使用DirectX 12的非同步運算功能,因此工作室方面認為,NVIDIA的GeForce 900系列GPU面對對手AMD同級別的、對DirectX 12的核心功能能順利支援的GCN架構GPU時會處於劣勢。[40]不過在2015年8月4日,Oxide Games方面解釋,「我們確實與NVIDIA的人員交流關於非同步運算方面的話題,確實,驅動程式方面尚未能完全實作它,但驅動程式卻報告它能夠實作之」[45],NVIDIA也正與Oxide Games合作,令900系列能夠實現非同步運算。由於不像AMD的GCN架構以硬體電路實現非同步運算,NVIDIA將必須仰賴驅動程式及其中介層,實現軟體層級的隊列及軟體層級的任務分發器,來轉發非同步運算任務到其GPU的硬體任務排程器上,令其勝任將運算負荷能分配至GPU中正確的電路單元上的工作。[46]
本系列同時還有針對行動平台發佈的GeForce GTX 970M和GTX 980M以及GTX 960M GTX 965M ,GTX 950M 和 GeForce 940M 930M 920M ,他們在桌上型平台發佈之後跟進。搭載這數款型號的筆記型電腦現已上市,後期會有從桌上型移植到行動平台的980 Notebook。
NVIDIA於2016年3月無預警推出3款MX型號顯示核心——920MX、930MX及940MX,同時也推出910M。930MX與940MX者架構與930M及940M相同,920MX架構則放棄Kelper/Fermi架構改用Maxwell架構;910M則使用Kelper/Fermi架構,然而MX型號的記憶體及處理器時脈比M型號高,同時記憶體也支援GDDR5,不過有些廠商為了節省成本則仍然使用DDR3記憶體。
晶片規格
註:
- 1 統一彩現器/流處理器數量 : 紋理對映單元數量 : 彩現輸出單元(ROP單元)數量
- 2 畫素填充率的計算:ROP單元數量乘以基準核心時脈
- 3 紋理填充率的計算:紋理對映單元數量乘以基準核心時脈
- 4 單精度浮點數運算效能的計算:彩現器/CUDA核心/流處理器的數量×2,再乘以基準核心時脈
- 5 GTX 980,GTX 970,GTX 960以及GTX 950的雙精度浮點數運算效能是單精度浮點數運算效能的1/32[47]
- 6 NVIDIA SLI支援最多4塊相同GPU的單GPU的顯示卡組成4路SLI組態,除此以外多塊相同GPU的顯示卡可組成3路或雙路連結組態。然而由於雙GPU的顯示卡已經相當於雙路SLI組態,這類顯示卡組成4路SLI僅需另外一塊可識別的相同的雙GPU顯示卡即可,但不能組成3路SLI的組態。
- 7 由於遮蔽了一個或數個區塊的二級快取/ROP單元而不影響所有對應的記憶體控制器,顯示記憶體會被分段。一個區段在寫入資料時另一區段也必須保持讀取資料以達成兩者的最高效能,這個效能數值不會高於純讀取或純寫入時的效能數值,在下表中記憶體匯流排已被分別顯示(「224+32」的樣式)
參見
腳註
外部連結
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.