ARCHITEKTURA INFRASTRUKTURY

Infrastruktura NVIDIA GB200 NVL72 i okablowanie MPO-8 APC dla jednostek skalowalnych

Demontaż architektury okablowania skalowalnej jednostki Blackwell (SU), gdzie 8 szaf łączy się w 9 216 aktywnych włókien światłowodowych.

Skalowalna jednostka DGX GB200 (SU) stanowi dużą zmianę w architekturze centrów danych. SU to zunifikowana jednostka z 576 procesorami graficznymi, połączona za pomocą 9 216 aktywnych włókien światłowodowych. ScaleFibre dostarcza precyzyjnie zarobione kable szkieletowe, niezbędne do zarządzania tą gęstością.

Cztery fizyczne sieci SuperPOD

NVIDIA dzieli SU na odrębne warstwy fizyczne w celu izolacji ruchu GPU.

MN-NVL (NVLink 5)

Skalowanie w górę

„Wewnętrzna” sieć szafy łącząca 72 procesory graficzne z prędkością 1,8 TB/s.

  • Zero włókien optycznych
  • Pasywna magistrala miedziana
  • Złącza typu „blind-mate”

Compute InfiniBand

Skalowanie w poziomie

Główna sieć „Wschód-Zachód” do masowego szkolenia wielowęzłowego.

  • 4 608 aktywnych włókien na SU
  • Topologia zoptymalizowana pod kątem szyn
  • Quantum-3/Quantum-2

Storage & In-Band

Frontend

Sieć oparta na Ethernet do szybkiego pozyskiwania i udostępniania danych.

  • Współczynnik blokowania 5:3
  • Odciążanie DPU BlueField-3
  • Obsługa VXLAN/RoCE

OOB Management

Płaszczyzna sterowania

Izolowana sieć do telemetrii sprzętu, zarządzania BMC i PDU.

  • Miedź RJ45/Cat6
  • Warstwa przełączników SN2201
  • Fizyczna separacja bezpieczeństwa

Metryki Exascale SU

8-szafowa jednostka skalowalna stanowi podstawowy element konstrukcyjny fabryki sztucznej inteligencji NVIDIA.

9,216

Aktywne włókna na SU

4,608

Włókna wyłącznie obliczeniowe

5:3

Współczynnik blokowania pamięci

400G/800G

Natywne prędkości portów

Trzy poziomy łączności SU

1
Poziom A: Serwer-do-Leaf

1 152 włókna na szafę, wykorzystujące kable szkieletowe o wysokiej gęstości lub patchcordy do łączenia węzłów NVL72 z przełącznikami Leaf.

2
Poziom B: Leaf-do-Spine

Agregacja ruchu zgodnego z szynami w obrębie SU za pomocą łączy 1:1 bez blokowania dla obliczeń.

3
Poziom C: Spine-do-Core

Skalowanie poza SU do scentralizowanego obszaru rdzenia za pomocą kabli szkieletowych o wysokiej gęstości.

Tradycyjne połączenia krosowe (punkt-punkt)

  • Złożoność ręczna: Wymaga 9 216 pojedynczych patchcordów na blok 8 szaf.
  • Zablokowanie przepływu powietrza: Gęste wiązki kabli blokują drogi odprowadzania ciepła z chłodzenia cieczą.
  • Profil ryzyka: Wysokie prawdopodobieństwo „skrzyżowanych szyn” podczas ręcznego połączenia 1:1.
  • Czas wdrożenia: Ponad 115 godzin na ręczne prowadzenie i etykietowanie na SU.

Modułowe okablowanie szkieletowe o wysokiej gęstości włókien

  • Plug-and-Play: Konsoliduje tysiące włókien w wstępnie zarobione, dostosowane kable szkieletowe 128F/144F/256F/288F/576F.
  • Optymalizacja termiczna: Kable o małej średnicy maksymalizują przepływ powietrza w gęsto upakowanych szafach.
  • Efektywność trasowania: Konsoliduje 1 152 aktywne włókna na szafę w szkielety MPO o wysokiej gęstości.
  • Profil instalacji: Szybkie wdrożenie dzięki wstępnie zarobionym, fabrycznie testowanym zestawom.

Wzrost aktywnych włókien: od węzła do pełnego SuperPOD

Złożoność okablowania
9 216 aktywnych włókien na SU wymaga modułowego okablowania szkieletowego o wysokiej gęstości, aby uniknąć „kablowego chaosu” blokującego przepływ powietrza.

Wizualizacja jednostki skalowalnej

8-szafowy blok obliczeniowy
8-szafowy blok obliczeniowy

NVIDIA GB200 SU (Scalable Unit) składa się z 8 szaf, z których każda mieści system DGX GB200 NVL72 z 72 procesorami graficznymi.

Dystrybucja kabli szkieletowych o wysokiej gęstości włókien
Dystrybucja kabli szkieletowych o wysokiej gęstości włókien

Konsolidacja tysięcy włókien szafowych w kable szkieletowe o wysokiej gęstości w celu zapewnienia swobodnego przepływu powietrza, szybkiej instalacji i minimalnego wykorzystania tras kablowych.

Chłodzenie cieczą
Chłodzenie cieczą

Płyty chłodzące cieczą stabilizują środowisko tacy, umożliwiając transceiverom OSFP efektywne odprowadzanie ciepła za pomocą radiatorów.

Technical FAQ

+ Jak udaje się zarządzać liczbą 9 216 włókien w SU?
Dzięki zastosowaniu hierarchii okablowania warstwowego. Kable szkieletowe o wysokiej gęstości włókien zastępują tysiące pojedynczych patchcordów MPO, zmniejszając fizyczną objętość i zapobiegając blokowaniu przepływu powietrza w systemie chłodzenia.
+ Co oznacza 'współczynnik blokowania 5:3' w sieci pamięci masowej?
W przeciwieństwie do sieci obliczeniowej bez blokowania (1:1), sieć pamięci masowej jest celowo przeszacowana. Zmniejsza to koszty i złożoność okablowania, jednocześnie spełniając wymagania 40 GB/s na węzeł dla pamięci masowej. Wdrożenie często wykorzystuje kable krosowe MPO kompatybilne z NVIDIA.
+ Dlaczego wewnętrzna sieć NVLink jest pozbawiona światłowodów?
NVIDIA wykorzystuje pasywną miedzianą płytę montażową i kartridże kablowe w szafie NVL72. Eliminuje to tysiące transceiverów optycznych i włókien, znacznie zmniejszając zużycie energii i opóźnienia. Włókno optyczne jest zarezerwowane dla sieci obliczeniowej skalującej się w poziomie.
+ Co się dzieje, gdy skalujemy do 16 jednostek skalowalnych?
Przy skali 16 SU (9 216 procesorów graficznych) całkowita liczba aktywnych włókien dla samej sieci obliczeniowej osiąga 18 432. Zarządzanie tą gęstością wymaga obudów o wysokiej gęstości zaprojektowanych specjalnie dla światłowodów o dużej liczbie włókien i scentralizowanych architektur przełączania grup rdzeniowych.
+ Dlaczego zamiast standardowego MPO-12 używa się MPO-8?
Nowoczesne transceivery 400G NDR i 800G XDR wykorzystują optykę równoległą 4- lub 8-torową. Układ 8-włóknowego MPO idealnie pasuje do konfiguracji 4x Tx i 4x Rx. Użycie aktywnych 8-włóknowych kabli szkieletowych MPO eliminuje „ciemne” lub niewykorzystane włókna w sieci klastra.
+ Jakie jest znaczenie polerowania APC (Angled Physical Contact)?
Szybka sygnalizacja 100G-PAM4 jest niezwykle wrażliwa na odbicia wsteczne. Kąt 8 stopni złącza APC zapewnia absorpcję odbitego światła przez płaszcz włókna, utrzymując wysokie tłumienie odbiciowe (ORL) wymagane do bezbłędnego treningu AI.
+ Jak gęstość włókien wpływa na hale AI chłodzone cieczą?
Nawet w przypadku tac chłodzonych cieczą, powietrze nadal musi krążyć, aby zarządzać ciepłem wtórnym. Użycie kabli SmartRibbon o wysokiej gęstości znacznie zmniejsza średnicę kabla, zapewniając, że fizyczne okablowanie nie będzie utrudniać przepływu powietrza ani kolektorów chłodzenia cieczą.
+ Jakie są ograniczenia odległości dla okablowania na poziomie SU?
Wielomodowe (OM4/OM5) jest ograniczone do 50 metrów dla 400G/800G. W przypadku scentralizowanych łączy Spine-to-Core, które przekraczają tę odległość, wymagane jest światłowód jednomodowy G.657.A1 w celu zapewnienia większego zasięgu bez degradacji sygnału.
+ Czy mogę używać standardowych kabli zewnętrznych do szkieletu centrum danych AI?
Nie. Wewnętrzne hale AI wymagają kabli LSZH (Low Smoke Zero Halogen), Riser lub Plenum, aby spełnić wymagane przepisy bezpieczeństwa pożarowego, w zależności od lokalnych regulacji. W przypadku tras o dużej gęstości, specjalistyczne kable wewnętrzne SlimCORE zapewniają wymaganą liczbę włókien w zmniejszonej średnicy.
+ Jakie są korzyści z fabrycznie zarobionych pigtaili w SU?
Pigtaile światłowodowe MPO umożliwiają szybkie spawanie masowe w warstwie Spine lub Core. To fabryczne zakończenie na jednym końcu zapewnia korzyści z prefabrykacji, podczas gdy „tępy” koniec pozwala na elastyczne dopasowanie do wymaganej długości na miejscu.

Zaprojektuj swoją fabrykę AI

ScaleFibre dostarcza wstępnie zarobione rozwiązania kablowe dla wdrożeń NVIDIA DGX SuperPOD.

Skontaktuj się z nami

Uzyskaj szczegółowe informacje na temat kabli szkieletowych o wysokiej gęstości dla Twojej jednostki NVIDIA DGX SU.