Loading AI tools
電腦處理器總線 来自维基百科,自由的百科全书
快速通道互联[1][2](英语:Intel QuickPath Interconnect,缩写:QPI)[3][4],是一种由英特尔开发并使用的点对点处理器互联架构,用来实现CPU之间的互联。英特尔在2008年开始用QPI取代以往用于至强、安腾处理器的前端汇流排(FSB)。初期,英特尔给这种连接架构的名称是“公共系统界面”(Common System Interface ,CSI)[5][6],它的早期设计形态亦被称为Yet Another Protocol(YAP)和YAP+。
英特尔在发布Sandy Bridge-EP核心(Romley平台)后,也顺势公布首代QPI的改进版QPI 1.1版本。[7]Intel于2017年发布的SkyLake-SP Xeon中,用UPI(UltraPath Interconnect)取代QPI。
尽管多数时候被称作“汇流排”,但是QPI是一种点对点互联结构。它被设计成与超微半导体自2003年使用的超传输(HyperTransport)汇流排竞争。[8][9] 英特尔在它下属的麻省微处理器研究中心(Massachusetts Microprocessor Design Center,MMDC)开发设计QPI,由以前曾在DEC Alpha的开发团队的成员进行。这个原先来自DEC的开发团队此前曾在康柏电脑和惠普工作,后来被英特尔挖角。而关于QPI的研究早在2004年就开始了。[10]
QPI的首次实作是英特尔自家的Nehalem微架构。在2008年11月发售的桌上型平台处理器Core i7-900系列和X58晶片组上、在2009年3月发布伺服器平台的Xeon X5500系列处理器。后来,2010年2月发布的Itanium 2处理器(核心代号“Tukwila”),也使用了QPI。[11]
QPI通常作为一个系统架构的组成部分,英特尔称之为“快速通道架构”(QuickPath architecture),这个架构的实作英特尔又称之为“快速通道技术”(QuickPath technology)。[12]在QPI最简单的布置形态——单处理器主机板上,QPI可用来将像是北桥晶片、南桥晶片的IO Hub和处理器对等连接,像是早期Core i7-900系列与X58晶片组之间的连接。在一些更复杂的架构的例子中,多个QPI链接可将一个以上的处理器或一个以上的IO Hub甚至主机板网路上的路由集线器对等连接起来,允许各个组件通过这个网路来与另一个组件进行通信。和HyperTransport汇流排类似,搭载快速互联架构的处理器亦需要内建记忆体控制器,支援非均匀存取架构。
每个QPI包括有两个20连线的点对点资料通道,每个通道一个传送方向,而每一方向还配备单独的时钟信号对(发送TX,接收RX),与资料讯号一起形成共42个信号,如此一来达成全双工运作。每个时钟信号采用差动信号的形式传送,因此QPI的信号线共84条。20条连线被划分为四等份,每份5条连线。QPI中基本资料传送单元是80位元大小的QPI资料封包,每两个时钟周期完成一次一个QPI资料封包的传送,在这两个时钟周期内,一个QPI资料封包是分为四次传送,每次传送20位元,即一个时钟周期内传送两次。每个80位元的QPI资料封包内有8位元用于错误纠正,8位元是“链路层报头”,剩下的64位元才是包含的真实有效的资料。QPI的频宽的计算上,建议计算每两个时钟周期每方向传送的有效资料量,由于QPI是双向传送的,因此每方向在两个时钟周期内都会有包含64位元(8位元组)有效资料的资料封包的传送。[13]
尽管最初QPI仅实现四象限链接,但QPI的规格容许其它实作。每个象限可以独立使用。在高可靠度伺服器上,一个QPI链接可以在降阶模式中运作。如果20+1信号中一个或多个链路失效,介面将剩馀的链路以10+1或最低5+1信号来继续运作,如果时钟失效,甚至会为资料信号重新分配时钟。[13]
最初实现四象限链路的是Nehalem架构的4核心处理器,使用完整的四象限链接QPI介面达成25.6GB/s的频宽,提供两倍于英特尔自家的X48晶片组上使用的1600MHz FSB的理论频宽。
尽管最早Core i7-900系列全面使用QPI,但其它Nehalem架构至桌上型处理器和行动型处理器,像是Core i3、Core i5以及其它Core i7系列(Lynnfield核心、Clarksfield核心以及其后续核心型号)的处理器,这些处理器因无需参与到多处理器系统上(从市场取向上也没有必要加入该特性),因此任何外部存取方式上都没有使用QPI,尽管这些处理器内部仍然使用QPI,用以连接处理器内的“Uncore”(“Uncore”指的是处理器晶片的一部分,包含记忆体控制器、PCI-E控制器、以及内建GPU,乃至整个北桥),这种设计可见于基于Westmere微架构的Clarkdale核心及Arrandale核心型号上(即首代Core i3、i5)[14][15][16][17][18]:p.3而这些系列的处理器,北桥已经移到处理器内部作为“Uncore”(或称“片上北桥”)的一部分,和处理器核心直接连接,无需再以前端汇流排界面连接,处理器的外部链接通过片上北桥/Uncore使用较慢的DMI(2.5GT/s至5.0GT/s的吞吐量)或PCI-e汇流排介面,用来连接南桥/PCH或其它形式的外部装置。[19]Nehalem/Westmere微架构上,Uncore/片上北桥与处理器核心尚用QPI连接,而Sandy Bridge微架构以后的桌上型平台以及行动平台之处理器上则采用基于QPI衍生的环形汇流排链路连接,同时也保证快取一致性。[18]:p.10
QPI的运作时脉有2.4GHz、2.93GHz、3.2GHz或4.0GHz(4.0GHz用于企业级的Sandy Bridge-E/EP核心的处理器上)。每个特定链路的时脉取决于链路终端的组件之性能以及印刷电路板上信号路径的信号特征,亦即可根据所连接组件的资料吞吐量需求自行调整时脉,提高资源利用效率。[20]最初,非极致版本的Core i7-900系列的处理器出厂预设的QPI时脉被限定在2.4GHz。由于采用了双倍资料率技术(DDR),位元的传送在时钟脉冲信号的上升沿和下降沿都进行,因此,资料传送的实际时脉是时钟时脉的两倍。
英特尔以80位元的QPI资料封包封装的64位元实际有效资料的传送量计数,来描述资料吞吐量和频宽。然而,由于单向发送和单向接收链路对是同步进行的,亦即全双工作业,英特尔后来将结果数字改为原来的两倍。因此,英特尔描述中,一个运作于3.2GHz时脉速率的20通道的QPI链接对(发送和接收)拥有6.4GT/s的资料传送速率,25.6GB/s的频宽,而同样通道数的QPI运作于2.4GHz时资料传送速率是4.8GT/s,频宽19.2GB/s。更通常地,根据这个定义,一个两端链结的20通道QPI每时钟周期传送8位元组,每方向4位元组。
频宽计算:(以运作于3.2GHz时脉速率下,吞吐量6.4GT/s)[21]
或:
如此类推,2.4GHz或4.8GT/s、4.0GHz或8.0GT/s、2.93GHz或5.86GT/s的也可以计算出频宽。
QPI的协定定义了五层结构,分为物理层、链路层、路由层、传输层以及协定层。[3]但是,在一些仅两节点的点对点QPI配置组态上,像是Core i7-900系列和Xeon双处理器平台(DP)系列的处理器,不需要传输层,路由层是最小最简单的两节点组态。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.