Zen是一种x86-64微架构,由AMD开发,2016年发表,取代Bulldozer微架构及其改进版本。该微架构是AMD重返高性能运算市场的重要产品,与旧有架构相比几乎完全重新设计并以新工艺制作以提升性能,同时还引入众多新特性,处理器产品以SoC或半SoC形态面市。而首款Zen微架构的处理器,核心代号“Summit Ridge”,正式品牌名称为“Ryzen”,而中文名称为“锐龙”,于2017年3月2日正式上市。[1][11][12][13][14]外部合作方面,超微以2.93亿美金卖给中科海光的x86架构CPU使用,不过预计不会提供后续型号的授权[15]

事实速览 产品化, 设计团队 ...
AMD Zen
产品化2017年3月2日[1]
设计团队AMD
生产商
指令集架构AMD64 (x86-64)
制作工艺/制程14 纳米(FinFET[3]
核心数量
  • 2(入门级)
  • 2~4(主流级)
  • 4~8(性能级)[4][5][6]
  • 8~16(发烧级)
  • 8~64(工作站及伺服器)[4]
一级缓存每核心 32 KiB 资料 + 64 KiB 指令
二级缓存每核心 512 KiB
三级缓存每个CCX 4~8 MiB
CPU主频范围2.0 GHz 至 4.0 GHz
CPU插座
应用平台台式电脑笔记本伺服器工作站
核心代号
  • Raven Ridge(APU)
  • Summit Ridge、Whitehaven(桌面CPU)
  • Snowy Owl(桌面CPU)
  • Naples(伺服器CPU)[9]
使用的处理器型号
上代产品Excavator微架构
继任产品Zen 2[10]
35~65 W(手提电脑/桌面APU)
65~180 W(桌面/伺服器CPU)
12~35 W(低功耗APU)
关闭
Zen微架构之CPU核心
faviconfaviconfaviconfaviconfavicon
15 sources

概览

首个基于Zen微架构的系统展示平台在2016年的E3消费电子展上现身,而架构的细节,则是到了同年英特尔开发者论坛正举行时,在其举行地点对面的街区上公布。不同于使用将近6年的并且在各种小修小补和仅更新了一次制作工艺的Bulldozer微架构,Zen微架构由曾经领队设计K6/K7/K8架构、2012年回归AMD的Jim Keller带队操刀另行开发,并且直接使用14nm节点FinFET制程,着重于提升每个CPU核心的性能,最初目标是比当时预期的Bulldozer微架构最终形态每时钟周期指令数英语Instructions per cycle(IPC)高出40%。此外处理器连接界面、插座、存储器支持等等都力图更新到最新规格。[16]除了性能和功能上的提升以外,还试图以AMD APU产品线的经验将新架构系统平台的体积缩小,令单一一颗CPU可以以SoC形态出现并支持常见的总线规格(包括PCIeSATAUSB等)。[17][18]加之此前发表的300系列晶片组、Socket AM4/Socket FP4插座、对DDR4的支持等,这些使得AMD可以令Zen微架构只需些少修改即可涵盖当前的手提电脑、小尺寸PC乃至台式电脑工作站伺服器(特别是高运算密度的云计算平台)等运算系统平台。[19][20][21]2017年中发表的AMD Epyc系列,取代Opteron成为AMD面向企业应用(特别是云计算)的企业级CPU系列,并且可作为无需南桥晶片的半SoC化产品。[22]

faviconfaviconfaviconfaviconfavicon
7 sources

架构设计

Thumb
Ryzen原生8核心的晶粒

Zen架构改进如下:[23][24][25]

  • 32KB 一级数据缓存(L1d)(8路)、64KB 一级指令缓存(L1i)(4路),可以直接回写(write-back),降低延时、加大带宽,此前的是先通过指针回写至存储器再更新一级缓存(write through),与Bulldozer模块相比增大两倍带宽
  • 同步多线程(SMT),一个CPU核心可执行两个线程。该特性此前在IBM POWER、英特尔(超线程)及甲骨文的SPARC上提供[26]放弃Bulldozer微架构的集群多线程架构(CMT)设计
  • 每核心4个算术逻辑单元(ALU)和两个地址生成单元(AGU)/加载存储单元
  • 因不再使用Bulldozer模块化设计,浮点运算单元(FPU)不再由两组整数ALU集群共享,改回传统的1颗物理核心1组浮点运算单元(每组4个128bit FPU单元,可组成两个256bit FPU 单元来操作)[27]
  • 512KiB 二级缓存(L2)为每个CPU核心独占,与Bulldozer模块相比增大两倍带宽
  • 三级缓存(L3)为每4个CPU核心组成的CCX模块(CPU核心复合体,其中的CPU核心仍可单独关闭[28])共享,CCX之间通过Infinity Fabric互联实现缓存一致性,比Bulldozer模块快5倍
  • 大型宏操作缓存
  • 每个SMT核心每时钟周期能最多分派6个微操作(集成6个整数操作和4个浮点操作)[29][30]
  • 更大的撤回、加载、存储队列
  • PTE(标签页表条目)接合英语Coalescing (computer science),可将4KiB的标签页表合并至32KiB的标签页尺寸上
  • 智慧预取
  • 4个解码单元,每个时脉周期可以解码4条x86指令
  • 使用带Indirect Target Array的散布型感知器的增强型分支预测,类似于Bobcat微架构的[31],AMD工程师Mike Clark称其可与人工神经网络相比[32];其优势是对于幽灵漏洞的防范能力较佳。
  • 分支预测器在指令/资料抓取阶段解除耦合
  • 为修改堆栈指针而专用的堆栈引擎(堆栈寄存器),类似英特尔Haswell微架构/Broadwell微架构的设计[33]
  • 搬移限制,降低物理资料搬移以降低功耗
  • 高性能硬件随机数产生器,支持RDSEED。RDSEED是英特尔在Boardwell微架构上实现的硬件随机数产生器的调取指令[34]
  • 支持x86/AMD64、x87、MMX(+)、SSE/SSE2/SSE3/SSSE3/SSE4.1/SSE4.2/SSE4a、AVX/AVX2FMA3、CVT16/F16C、AES、SHA、ADX等指令集,移除XOP、FMA4、LWP、TBM等甚少使用的指令集支持
  • 支持SMAP、SMEP、XSAVEC/XSAVES/XRSTORS、XSAVES、CLFLUSHOPT、CLZERO以及ADCX指令集[34]
  • 支持AMD-VIOMMU虚拟化技术
  • 新的时钟门控
  • 基于HyperTransport扩展的高带宽低延时的Infinity Fabric互联架构,在基于Zen的处理器上大量使用的NUMA结构之瓶颈可被大幅缓解
  • 消费级系统支持双通道DDR4-2666的存储器配置规格,企业级系统最高支持八通道并且带ECCDDR4存储器,不支持DDR3
  • AMD SenseMI,[35][36][37]使用AMD Infinity Control Fabric提供以下功能:
    • Pure Power,取代Cool & Quiet,监控晶片电压时脉,调整处理器的节电状态
    • Precision Boost,取代Turbo Core,在热设计功耗和温度的限制下在默认时脉之上进行动态加速,对于有负载分配的核心尽可能加速,其余闲置的CPU核心则尽可能进入休眠状态
    • XFR,全称eXtended Frequency Range,动态时脉扩展,在散热条件允许的情况下尽可能将时脉和电压(必要时)提升至超过Precision Boost所能提供的时脉加速幅度,但是这个功能需要主板晶片组提供支持,目前仅搭载X370和X300晶片组的主板可用[38]
  • SoC设计,提供传统南桥北桥晶片的功能(包括PCIeSATA/AHCINVMeUSB),不过AMD还是发表了其委托祥硕设计的300系列晶片组
  • Socket AM4插座[35]
  • GCCLLVM编译器做了性能优化
faviconfaviconfaviconfaviconfavicon
16 sources

处理器产品

Thumb
Zen微架构有两种晶片实现,一种无内建GPU,一种内建GPU,后者用于AMD APU产品在线
Thumb
用于Epyc时的MCM连接结构
Thumb
用于Ryzen ThreadRipper时的MCM连接结构

除了2017年3月贩售的Ryzen以外,主流消费级AMD APU产品线也更新到Zen微架构了,新版AMD APU预计2017年下半年开卖,[9]而伺服器及工作站用的Opteron系列,则是更名为EPYC[39],预计2017年第二季度以后出货。[40]

目前出货的Zen微架构的处理器均为GlobalFoundries在美国纽约州的Fab 8厂制造,制程工艺技术来自GF与三星电子旗下晶圆厂合作的14nm LPP[41]。受制于GF的生产能力,AMD在2017年初以一亿美元的代价修订与GF的合同,不再排除让三星、台积电代工制造的可能,不过这将在未来的7nm制程节点上开始。[42]

faviconfaviconfaviconfaviconfavicon
8 sources

Ryzen系列

2017年3月初至4月中,Ryzen 7、Ryzen 5系列处理器正式上市,Ryzen 7为8核心16线程的台式电脑处理器,Ryzen 5则是有6核心12线程和4核心8线程两种规格,基准时脉从3 GHz ~ 3.6 GHz不等,均支持双通道DDR4存储器,拥有最多24条PCIe通道。

早期Ryzen系列的DDR4存储器支持度有兼容性问题,存储器只能以较低的速率、时序参数运行。不过随着2017年3月、4月的数次AGESA固件的更新,已经大有改善,最高能支持至DDR4-3200规格。[43][44]

AMD也发表了极致性能级别的产品Ryzen ThreadRipper(线程撕裂者),由Epyc的NUMA结构派生而来,目前最新版本ThreadRipper PRO 3995WX最高64核心128线程规格,支持八通道存储器(由四个双通道存储器控制器提供支持)最高可扩展到2TB。本次也是继AMD Quad FX平台以来第二次面向消费级市场推出NUMA结构的电脑系统平台,不过这次AMD将多颗处理器集成到一块处理器基板上,仅需一个处理器插座。[45]

faviconfaviconfavicon
3 sources

APU产品线

2017年5月17日AMD公布了移动版Ryzen处理器,均为自家的APU产品。本次公布的CPU规格是,4核心8线程、每核心 512KB 的 L2 Cache、所有CPU核心共享 4MB L3 Cache,基准时脉有 1.9 GHz、2 GHz、3 GHz的配置,最高加速时脉可达 3.3 GHz;而GPU则是采用与代号“Vega”GPU相同的架构,11组CU共704个ALU,核心时脉800MHz左右。[46]

favicon
1 sources

EPYC系列

2017年5月17日AMD在财务分析报告会上宣布,基于Zen微架构的伺服器/工作站用CPU,另立Epyc品牌取代原来Opteron品牌。[39]主攻高密度云计算等企业应用。[22]

最高规格是核心代号“Naples”的多晶片模块,由4颗8核心16线程的处理器晶片做在一块处理器PCB上,所以一共拥有4×8个CPU核心,4×16线程,晶片之间采用Infinity Fabric连接。处理器采用Socket SP3 LGA封装,支持双处理器,每颗处理器支持八通道DDR4存储器(由每颗晶片提供双通道支持),每颗处理器拥有高达64条PCIe 3.0通道,处理器之间也使用Infinity Fabric连接。[39]

由于处理器晶片是已经内建SATA/SATA Express控制器、USB控制器、时钟电路等传统上由南桥晶片提供的功能,针对高密度伺服器的主板可更利用海量的PCIe通道增加网络处理元器件、RAID数组控制器等而无需南桥晶片,必要的也就一颗显示输出用GPU,也是x86架构平台首次对伺服器市场推出高度集成化的半SoC化处理器。[22]不过,也由于处理器本身的多晶片模块设计,相当于一颗NUMA结构的4路处理器平台,需要软件开发做更进一步的针对NUMA结构的优化调适,尤其于工作站用途时,不过市面上并不缺少NUMA的使用示例,Intel在企业级平台上也是大量使用。[45]

性能表现

从多数媒体的首发性能评测而言禅架构比起推土机架构获得了广泛的好评,首发产品Ryzen 7系列的每个CPU核心的性能及多线程性能已经达到Intel Haswell/Boardwell微架构在同时脉下的水准,能源效率则更佳,多线程的需求是Ryzen的优势,其竞争对手的处理器产品采用旧一代的架构时的默认时脉也不会如此高。[47][48]但不足之处是,一来受制于制造工艺,最高时脉及能源效率不如对手英特尔最新的Skylake/Kaby Lake微架构的产品(Intel的14纳米制程,在许多方面表现的都优于其他晶圆厂的14/16nm制程),尽管Skylake/Kaby Lake微架构同时脉下性能与Haswell/Boardwell微架构的相比仅5%的性能差别[49][50];二来是长久以来AMD高性能系统平台的缺席、市占劣势,间接导致不少软件对AMD处理器的性能优化不良,特别是一些电脑游戏(一些游戏性能测试结果显示似乎这些游戏并不适应AMD的同步多线程,出现性能不升反降的情况,以网络游戏为重灾区)[51][52][53]

目前英特尔主要以制造工艺优势和默认高时脉优势与AMD拉开差距,为维持x86处理器的性能领导地位,英特尔推出了Core i9系列,市场定位相当于以往的Core i7极致版,但规格更为夸张(特别是时脉参数上,尽管耗电和发热量上也有所增长)。针对企业级市场打造的EPYC,则在大数据处理以及高性能运算上乐胜英特尔的Xeon系列,但是在数据库处理方面则不敌对手。[54]

Ryzen并没有熔毁漏洞幽灵漏洞的问题也比较轻微,竞争对手Intel修正这些漏洞所造成的性能损失,让Ryzen在许多需求的竞争力提高。

有第三方x86-64指令集程序优化指导机构Anger,推出了针对Zen微架构处理器的原始码优化建议指导。[55]

faviconfaviconfaviconfaviconfavicon
9 sources

Zen+

事实速览 产品化, 设计团队 ...
AMD Zen+
产品化2018年4月
设计团队AMD
生产商
核心数量
  • 4~8(性能级)
  • 24~32(发烧级)[56]
一级缓存每核心 32 KiB 资料 + 64 KiB 指令
二级缓存每核心 512 KiB
三级缓存每个CCX 8 MiB
CPU插座
应用平台台式电脑工作站
核心代号
使用的处理器型号
  • 65~105 W(桌面CPU)
  • 250 W(桌面CPU)
关闭

Zen+是Zen的改进型微架构,[58]首款基于Zen+的处理器于2018年4月发表。[59]

faviconfaviconfaviconfaviconfavicon
9 sources

改进之处

Zen+微架构的处理器使用了GlobalFoundries的“12纳米”LP(Leading Performance)工艺制作,[60]该制程工艺实际上是同厂14纳米LPP工艺的改良版,重在提高单位面积下晶体管的数量(即同等电路下减少晶片面积),而Zen+相较于Zen而言没有大变动,晶体管数量也是几乎一样。[61]有第三方媒体对基于Zen+的Ryzen 7进行实测,发现除了晶片面积有所减少以外,相较于第一代也有小幅的时脉提升及同等性能下功耗的下降,[62][61]但这个也与AMD对Zen的电源管理有改善有关,主要是对AMD SenseMI电源管理的调整改善,令CPU电源管理模块更快响应CPU的负荷需要,并且在有负荷时CPU核心的时脉比此前Zen的更能维持高时脉,特别是XFR2,还进一步改进了检测单个CPU核心在当前最高工作温度下的最高时脉的特性。[63]

除了换用更新的制程以及对CPU电源管理的改善外,还有:[64]

  • 降低对缓存、存储器存取时所需的时钟周期
  • 提升缓存带宽
  • 更佳的存储器兼容性以及更高性能参数的存储器支持(原生支持DDR4-2933,XMP/AMP支持下更达DDR4-3400+)

这些改进使得Zen+相较于Zen而言同时脉下每时钟周期能处理多3%的指令数量,最高时脉也有6%的提升,最终大约获取10%左右的性能提升。[61]

配套的晶片组更新至400系列,不过原先300系列的通过AGESA EFI固件更新后(若厂商提供)也可以使用基于Zen+的处理器。

faviconfaviconfaviconfaviconfavicon
5 sources

Zen 2

首批采用Zen 2微架构的CPU产品于2019年7月发表,Zen 2显著改善了性能。

Zen 3

首批采用Zen 3微架构的CPU产品于2020年10月8日发布。

相关

参考文献

外部链接

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.