Loading AI tools
来自维基百科,自由的百科全书
推土机微架构[1][2][3](英语:AMD Bulldozer)是AMD继K10微架构之后推出的中央处理器微架构[2],由 IBM Power4 的总工程师 Chuck Moore 操刀。该微架构主要应用于桌上型平台、伺服器平台乃至超级计算机的微处理器核心上。Bulldozer在历经数次跳票后于2011年9月19日发布,其首发产品是核心代号为“Zambezi”的AMD FX。
产品化 | 2011年至2014年 |
---|---|
推出公司 | 超微半导体(AMD) |
设计团队 | 超微半导体(AMD) |
生产商 | |
微架构 | CISC(x86-64) |
指令集架构 | AMD64/x86-64、x86、MMX、3DNow!、SSE(1、2、3、3S、4a、4.1、4.2、5(后拆分为XOP、FMA4、CVT16))、AVX、AES、NX bit、AMD-V等 |
制作工艺/制程 | 32纳米 |
核心数量 | 3至16(1.5模组至 8模组) |
一级快取 | 每整数排程单元16KB指令 每模组共用32KB指令 每模组64KB资料 |
二级快取 | 每模组2MB 16路 |
三级快取 | 全部模组共用8MB 16路 |
CPU主频范围 | 1.600 GHz 至 4.200 GHz |
HyperTransport速率 | 至 6.4 GT/s |
CPU插座 | |
封装 | |
应用平台 | 伺服器、工作站、桌上型电脑、超级计算机 |
核心代号 |
|
使用的处理器型号 | |
上代产品 | AMD 10h处理器家族 |
继任产品 | AMD Piledriver |
Bulldozer微架构从一个早期已搁置的微架构设计发展而来[3],主攻热设计功耗为10瓦至125瓦的处理器平台。AMD预期认为,基于Bulldozer架构的处理器在实际应用中每个“推土机”(Bulldozer)核心每瓦效能可达到高效能计算(High-performance computing,HPC)的水准。届时每个“推土机”核心会支援Intel绝大部分的指令集(包括SSE4.1、SSE4.2、AES、CLMUL以及AVX),以及AMD自有的指令集(包括由SSE5拆分而来的XOP、FMA4、CVT16)[4][5]。
2011年,AMD处理器开始导入32奈米制程,推出APU(加速处理单元)新形态处理器,应用在桌上型电脑与笔记型电脑。超微的处理器架构有两大关键的调整方向,依用途区分成两种系列,其研发技术代号分别为Bulldozer与Bobcat。Bulldozer架构针对主流伺服器、桌上型电脑、笔电的应用,提供高存取效能与高负载多执行绪的架构,并选择以APU组态的高延展性来连结图形处理器;Bobcat主攻低耗电的超轻薄电脑应用。[6]
Bulldozer架构的处理器均使用格罗方德的32纳米HKMG SOI制程,重新使用类似DEC的多任务计算的设计。根据AMD的发布说明,“平衡专用和共用的处理器运算资源,来提供一个易于成倍提升计算效能的,高度紧凑的单晶片多核心的设计”。[7]换句话说,透过精简处理器核心一些“冗馀”部分,辅以多核心/多线程的设计,超微希望籍此以更少的能耗,来充分发挥这些核心的特性和效能来提升整块微处理器乃至整个平台的效能。AMD研究员Tim Fischer表示,Bulldozer采用全新的控制结构和运算单元,其性能体现于整数运算、浮点运算、L1快取、电源管理,和时脉产生器等……均是开发重点,主要意义在于降低功耗并提升单位功耗的效能。[8]
Bulldozer微架构的设计早在2003年已出现,由于AMD忙于K8微架构处理器的研发和推出而搁置,后来Bulldozer架构在该微架构的基础上重新设计。可合并为1个256位的2个128位并且可进行融合乘法运算的浮点运算单元,这个主要特性在2003年的设计中已出现;一个Bulldozer核心单元中,除了前述的浮点运算单元外,还拥有两个整数排程运算单元,每个整数排程运算单元各自拥有4条管线(另外的读取、解码这两级管线为两个整数运算单元所共用);L1快取为每整数排程运算单元独占,但L2快取则为两个整数排程运算单元所共用。AMD称这样的一个单元为一个“模组”,一个16线程的Bulldozer处理器中包含8个这样的模组,但一个模组并不会被辨认为一个物理核心,而是根据一个模组中的2个整数排程运算单元的数量辨认为两个逻辑核心(即作业系统会将1个模组辨认为两个逻辑核心/线程)。[9]一个“模组”包含2个逻辑核心,和Intel的超线程技术中1个物理核心被辨认为2个逻辑核心的做法似乎有类似之处,但事实上,两者大相径庭:AMD Bulldozer的“模组”为每条线程提供了各自的整数运算排程单元和一级指令快取,而英特尔的超线程则是两条线程共用核心内所有可用的运算资源。[10]
基于Bulldozer微架构,32纳米SOI HKMG制程的处理器产品于2011年9月率先于桌上型平台上发布,是为核心代号“Zambezi”(Socket AM3+,4至8线程)之AMD FX系列;紧接著的是10月12日发布伺服器平台,核心代号“Interlagos”(Socket G34,16线程)、“Valencia”(Socket C32,4至8线程)之AMD Opteron系列[11][12]重新启用了AMD少有的“FX”品牌。首发的桌面级产品FX-8150,将有四个Bulldozer模组;伺服器级微处理器,代号Interlagos,是由两个包含4个Bulldozer模组的MCM、共八个Bulldozer模组所构成。[13]
基于Bulldozer微架构的桌上型平台处理器为AMD FX,于2011年9月19日正式上市[39]。使用GlobalFoundries 32nm SOI工艺,支持Turbo Core 2.0、Cool'n'Quiet、HyperTransport 3.1等技术。使用新的Socket AM3+(942)插座,支持DDR3-1866双通道内存,分为8核、6核、4核三种版本,主频从2.8GHz~4.2GHz不等。配套芯片组为AMD 900系列芯片组。
Bulldozer与Fusion APU“Llano”两个系列处理器的上市时间定案,分别是2011年9月19日跟2012年第一季。[40]最初有4个Bulldozer处理器在2011年9月19日发布,分别是:四核心FX-4100、六核心FX-6100、八核心FX-8150、FX-8120。[41]三核心型号(1.5个模组,微软KB2592546修补程式的定义为“1.5核心”)只供OEM市场。[42]
2011年11月14日,AMD宣布推出针对伺服器等级效能的Opteron 6200与4200系列处理器(先前代号分别为:Interlagos与Valencia),主要将提供其扩充性,并且提供高出73%的记忆体频宽,以对应更高阶的虚拟化技术应用,同时在整体耗电量部份也让每组核心减少原有一半,同时也让主机使用空间减少三分之二,进而节省更多电力、空间等成本支出。[43][44]
AMD也同步透露2012年将加入全新AMD Opteron 3000伺服器平台,主要锁定超高密度、超低功耗的1路网路主机代管(Web Hosting)、网路伺服器(Web Serving),以及微型伺服器(Microserver)等应用领域。其中将会先推出代号为“Zurich”的4至8核心架构的处理器系列,同样采用推土机(Bulldozer)架构且对应AM3+插槽,并且预计将于2012上半年间出货。[43][44]
首款基于Bulldozer微架构的消费级处理器AMD FX上市后,在微架构的设计上、效能上和能耗上饱受争议。首发的顶级型号FX-8150,在倚重单线程的基准效能测试中,测试结果显示FX-8150不仅落后于基于Nehalem、Sandy Bridge等微架构的Intel Core i系列,还不如基于K10微架构的AMD Phenom II系列;[45]不过在倚重多线程的效能测试中,结果显示勉强可以追平Phenom II X6 1100T和Intel Core i7-2600K。纵观各媒体的效能测试结果,FX-8150综合效能强于Intel Core i5 2500K,而零售价格则在其之下,这个结果并没给市场预期留下好印象。[46][47]在效能测试中,FX-8150在厂方预设时钟频率下运作,无论待机抑或满负荷运作,能耗比与Intel基于SandyBridge的处理器不相上下,但是进行较大幅度的超频后,FX-8150尽管效能提升明显但处理器会变得极其耗电,能耗比变得相当低下。[48][49][50][51]
Tom's Hardware的网站评论认为,这种在多线程负载下仍然不如预期的效能表现,是由于目前Windows 7的线程和处理器核心一一对应的线程排程方式。他们指出,如果Windows首先把一条线程分配给一个Bulldozer模组,并在模组内分为两条子线程以充分利用该模组内的整数排程运算单元,这将会效能最大化地使处理器同时处理四条线程。这种线程排程方式和带有超线程的Intel微处理器的类似——Windows 7会在利用逻辑核心(超线程得到的)前把线程安排至物理核心上。[52]
对于处理器在超频状态时夸张的功耗水平,业界相信由于格罗方德的32纳米SOI HKMG制程仍旧不成熟,这个导致了处理器核心在更高时脉下运作时,漏电现象严重,使耗电量飙升以及核心发热量大增。[53][54]而且有效能测评指出,AMD为压低FX系列的功耗,有意压低部分型号处理器的最高工作温度,而这个温度的设定值,实际还低于处理器在预设时钟频率下满负荷运作时的最高温度,这样一来在处理器过热保护机制下,效能受到了不小的影响,从而使处理器效能不如预期。[55]
而AMD FX的较低阶的型号中,FX-4100系列与Intel Core i3系列之间的比较以及FX-6100系列与Intel Core i5系列(Core i5 2500K除外)之间的比较中,除了某些倚重单线程的应用程式和基准效能测试项目以外,其馀的差距不大。不过功耗方面仍然有些偏高,尤其是超频以后功耗仍然大幅增加。[56][57][58][59]
2011年10月13日,AMD在其官方部落格中回应了AMD FX系列处理器的效能、功耗表现不如市场预期的问题,除了指出由于微架构不同于以往的x86处理器的微架构,现行的应用程式以及基准效能测试程式没有对Bulldozer微架构的特点进行充分优化,以至效能不如预期以外,也承认FX-8150效能不济的事实:不少效能测试成绩不如Intel的Core i7-2600K/2700K,甚至比不过AMD上一代的消费级顶级产品Phenom II X6 1100T。AMD同时表示,在2012年以后的发展规划中,将提升Bulldozer微架构的效能,并降低功耗,目标是每一瓦电功率的效能提升10%至15%。格罗方德也表示继续改进其32纳米SOI HKMG制程。[45][60]根据目前一些基于AMD Piledriver微架构的AMD Fusion(核心代号“Trinity”)的工程样品的效能测试,结果显示和AMD的预期效能一致。[61][62]
AMD于2011超级电脑展(Supercomputing 2011)上,宣布基于Bulldozer微架构的新款AMD Opteron 6200系列处理器已被HPCwire杂志的编辑与读者评选为2012年最受瞩目的五款新产品之一,并被美国国家科学基金会(National Science Foundation)的Blue Waters计画采用,将在伊利诺州的国家超级电脑应用中心(NCSA)建置此部超级电脑。[63]
超过235部,搭载近5万颗AMD Opteron 6200系列处理器的Cray XE6机柜,使Blue Waters超级电脑能提供超过每秒千兆次(petaflop)的充裕效能,在各种现象研究上的获得突破性进展,包括:宇宙大爆炸(Big Bang)之后的演进、龙卷风的形成、病毒侵入细胞的机制,与其他众多科学工程方面的应用。
2012年12月,搭载18,688颗8模组16核心的AMD Opteron 6274为任务分配单元,18,688颗NVIDIA Tesla运算加速卡(GK110通用图形处理器)的泰坦超级电脑以17.59petaFLOPS的记录荣登TOP500第一名,Green500(超级电脑效能功耗比前500强)第三名。[64][65]
2011年12月16日,微软发布了KB2592546[66],即传说中的推土机线程调度补丁。而当天上午微软就已经撤下了补丁,对于这一点BSN网站[67]联系了微软和AMD,得到了AMD方面的官方回应:
“ | AMD表示对于微软突然发布这一形式的补丁感到很惊讶,因为补丁根本还没有完成。推土机Windows 7/Windows Server 2008 R2操作系统的线程调度补丁分为两个部分,微软昨天发布的只是第一个。[68]
AMD称自己也不相信用户能从单独第一部分的补丁中得到好处,原本的补丁发布计划是在2012年第一季度时才能看到推土机在Win7/Server 2008 R2优化后的性能表现。[68] |
” |
——Theo Valich,Bright Side Of News |
微软在KB2592546之后,针对以Win7、Windows Server 2008 R2的电脑为基础,进行最佳化。目前,AMD推土机处理器比预期的慢。因为在该两种作业系统的执行绪逻辑,只对同步多执行绪(Simultaneous Multithreading, SMT)的排程特色进行优化,而没对集群多线程(CMT,Clustered Multithreading)一类的多线程设计的处理器进行特别优化,来让效能最有效地运行。[67][52][69]
后来完整版的修补程式(KB2646060以及KB2645594更新档)发布,不少效能测试结果显示这些效能优化修补程式效用有限,无论是伺服器平台还是桌面平台,最多仅在某些项目上有15%的效能增长。[69]
2012.09.21 AMD的驱动程式已有内建修补无需安装微软的修正程式
AMD全球副总裁暨终端产品事业群总经理Chris Cloran表示,等级最高的FX-8150八核心处理器,在2011年8月31日,由AMD团队超频达到8.429GHz,超越同厂处理器先前的被“Team AMD FX”缔造的8.308 GHz成绩,荣登金氏世界纪录“最高时脉的电脑处理器”。[70][71]
AMD在2011年发布2012年的财政预算以及2012年的产品路线图时宣布,在2012年的第三季度发布Bulldozer微架构的改进版Piledriver。首批基于Piledriver的处理器是核心代号“Trinity”的AMD A系列处理器(APU)行动版本和桌面版本;新FX和Opteron在2012年9月发布。[72][73]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.