Der Cray XC50-Supercomputer ist die 2016 erschienene neueste Ausgabe der XC-Supercomputerlinie des Computerherstellers Cray. Vorgänger sind die XC30 und Cray XC40. Die XC-Supercomputer nutzen als Recheneinheiten Großserien-CPUs wie Intel Xeon (Broadwell), Intel Xeon SP bzw. GPUs wie Nvidias Tesla P100 und Standard DDR4-Hauptspeicher. Zwei Besonderheiten sind maßgeblich für die hohe Leistungsfähigkeit dieser Baureihe:
Die enorme Packungsdichte, die durch „Blades“ erreicht wird, die bis zu 8 CPUs in 2-Sockel-Nodes fassen und von denen 48 in ein „Cabinet“ verbaut werden können. Die Kühlungseinheit für die ebenfalls enorme Abwärme von bis zu 100 kW je Cabinet wird dabei gleich neben das „Compute-Cabinet“ gestellt.
Das „Dragonfly“ genannte Netzwerk, das aus einem Aries-Routing / Switching-Chip je 4 Nodes besteht und eine Verschaltung in einem nur 2-stufigen Netzwerkbaum (global werden Aries-„Gruppen“ verschaltet) erlaubt.
Die „Aries“-Chips stellen hierfür eine Routing-Bandbreite von 500 GBit/s und 40 Routing-Ports je Chip bereit. Diese Verschaltung ermöglicht geringe Latenzen und einen hohen Durchsatz durch die hohe Bandbreite der Chips.
Die Hauptunterschiede zur Vorgängergeneration XC40 bestehen in den zur Verfügung stehenden Blades, die Grundarchitektur mit Cabinets, Chassis und Dragonfly-Netzwerk bleibt gleich.
Die erste Installation dieses Supercomputers bestand deshalb auch in der Aufrüstung des Piz Daint genannten Schweizer Rechners von einer Cray XC30 mittels Austausch der Compute-Blades.[1][2]
von der XC40 ein 4-Nodes Blade mit E26xx-v4 2-CPU Bestückung
eine CPU / GPU-Mischbestückung aus: 4 Nodes mit 1 E26xx-v4 + 1 NVidia Tesla P100 Dieses Blade wird mit der höchsten Energieeffizienz (FLOPS/Watt) beworben.
ein CPU-Blade mit 4 x 2 x Xeon SP Nodes welches dann auf 384 CPU je Cabinet bzw. 10.000 Kernen je Cabinet kommen (Bestückung demnach Platinum-CPUs mit 26 oder 28 Kernen)
ein Xeon Phi Blade mit 4 x 1 CPU Nodes
ein luftgekühltes ARM-CPU-Blade mit 4 x 2 CPU Nodes CaviumThunderX2 CPUs
DataWarp: ein SSD-Beschleuniger-Einschub, der den maximalen Datendurchsatz von parallelen Dateisystemen erhöht
drei "Chassis" mit je 2 x 8 Steckplätzen für Blades können in ein Cabinet gebaut werden. Jedes Chassis enthält eine Backplane mit den notwendigen Verbindungen für Stromversorgung und Netzwerkanbindung. Enthalten sind damit auch die Verbindungen zwischen den 16 Aries-Chips eines Chassis.
je Cabinet 3 Chassis mit jeweils 16 Blades eingebaut, zusammen 48 Blades mit je 4 Nodes, macht 192 und bis zu 384 CPUs
Luft (AC) oder Wasserkühlung (LC) erhältlich
Leistungsbedarf: 103 kW per Cabinet (Maximum Configuration)
je Compute-Cabinet wird seitlich ein Kühlungs-Cabinet angeflanscht (Luft- oder Wasserkühlung)
je Blade (Einschub) sind 4 Nodes eingebaut und über einen Aries-Chip ans Netzwerk angeschlossen
ein Aries-Chip realisiert 500 GB/s Switching-Bandbreite, 8 CPU-Ports und 40 Netzwerkports
Die Aries-Chips sind verknüpft zu einer Dragonfly-Netzwerkverschaltung: Bedingt durch die hohe Anzahl an Switchports je Aries-Chip kann ein zweistufiger Baum (Aries-Chips zusammengefasst zu einer Gruppe, alle Gruppen direkt miteinander global verschaltet) eingehalten werden. Jedes Chassis stellt hierzu 90 Kupfer- und 40 Glasfaserverbindungen nach außerhalb zur Verfügung
Die derzeit größte Installation der XC50 ist ebenfalls das Piz Daint genannte System mit ca. 36 Cabinets und 6751 Nodes sowie 1350 Aries-Router-Chips und dem 3. Platz der TOP500-Supercomputerliste vom Juni 2017.
Sadaf Alam, Nicola Bianchi, Nicholas Cardo, Matteo Chesi, Miguel Gila, Stefano Gorini, Mark Klein, Colin McMurtrie, Marco Passerini, Carmelo Ponti, Fabio Verzelloni:An Operational Perspective on a Hybrid and Heterogeneous Cray XC50 System. Swiss National Supercomputing Centre, Lugano 2017 (cug.org[PDF; 1,4MB; abgerufen am 10.September 2023]).