ARQUITECTURA DE INFRAESTRUCTURA

Infraestructura NVIDIA GB200 NVL72 y Cableado APC MPO-8 para Unidades Escalables

Deconstruyendo la arquitectura de cableado de una Unidad Escalable (SU) Blackwell, donde 8 racks convergen en 9.216 hilos de fibra activos.

La Unidad Escalable (SU) DGX GB200 representa un gran cambio en la arquitectura de los centros de datos. La SU es una entidad unificada de 576 GPUs interconectadas por 9.216 hilos de fibra activos. ScaleFibre proporciona los troncales de precisión terminados necesarios para gestionar esta densidad.

Las 4 Estructuras Físicas de SuperPOD

NVIDIA segmenta la SU en capas físicas distintas para aislar el tráfico de GPU.

MN-NVL (NVLink 5)

Escalado Vertical (Scale-Up)

La red ‘interna’ del rack que conecta 72 GPUs a 1.8 TB/s.

  • Cero Fibra Óptica
  • Backplane de Cobre Pasivo
  • Conectores de Acoplamiento Ciego

Compute InfiniBand

Escalado Horizontal (Scale-Out)

La principal estructura ‘Este-Oeste’ para el entrenamiento masivo multinodo.

  • 4.608 fibras activas por SU
  • Topología optimizada por carril
  • Quantum-3/Quantum-2

Almacenamiento y En Banda

Frontend

Estructura basada en Ethernet para ingesta y aprovisionamiento de datos de alta velocidad.

  • Factor de bloqueo 5:3
  • Descarga DPU BlueField-3
  • Soporte VXLAN/RoCE

Gestión OOB

Plano de Control

La red aislada para telemetría de hardware, BMC y gestión de PDU.

  • RJ45/Cobre Cat6
  • Nivel de Switch SN2201
  • Seguridad de aislamiento físico (air-gap)

Métricas SU Exaescala

Una Unidad Escalable (SU) de 8 racks representa el bloque de construcción fundamental de la NVIDIA AI Factory.

9,216

Fibras Activas por SU

4,608

Hilos Solo de Computación

5:3

Relación de Bloqueo de Almacenamiento

400G/800G

Velocidades de Puerto Nativas

Los Tres Niveles de Conectividad SU

1
Nivel A: Servidor a Leaf

1.152 fibras por rack utilizando troncales de alta densidad de fibra o jumpers para conectar nodos NVL72 a Switches Leaf.

2
Nivel B: Leaf a Spine

Agregación del tráfico alineado por carril dentro de la SU utilizando enlaces no bloqueantes 1:1 para computación.

3
Nivel C: Spine a Core

Escalado más allá de la SU a un área de Core centralizada utilizando troncales de alta densidad.

Cableado Heredado (Punto a Punto)

  • Complejidad Manual: Requiere 9.216 cables de conexión individuales por bloque de 8 racks.
  • Obstrucción del Flujo de Aire: Los densos haces de cables bloquean las rutas de escape de la refrigeración líquida.
  • Perfil de Riesgo: Alta probabilidad de ‘carriles cruzados’ durante el parcheo manual 1:1.
  • Tiempo de Despliegue: Más de 115 horas para el enrutamiento y etiquetado manual por SU.

Troncales Modulares de Alta Densidad de Fibra

  • Plug-and-Play: Consolida miles de fibras en troncales preterminados de 128F/144F/256F/288F/576F a medida.
  • Optimización Térmica: Cables de pequeño diámetro maximizan el flujo de aire en racks densos.
  • Eficiencia de Ruta: Consolida 1.152 fibras activas por rack en troncales MPO de alta densidad.
  • Perfil de Instalación: Despliegue rápido mediante ensamblajes preterminados y probados en fábrica.

Crecimiento de Fibra Activa: Nodo a SuperPOD Completo

Complejidad del Cableado
9.216 fibras activas por SU requieren troncales modulares de alta densidad de fibra para evitar el 'caos de cables' que bloquea el flujo de aire.

Unidad Escalable Visualizada

El Bloque de Computación de 8 Racks
El Bloque de Computación de 8 Racks

Una SU (Unidad Escalable) NVIDIA GB200 consta de 8 racks, cada uno albergando un sistema DGX GB200 NVL72 con 72 GPUs.

Distribución de Troncales de Alta Densidad de Fibra
Distribución de Troncales de Alta Densidad de Fibra

Consolidación de miles de fibras de rack en troncales de alta densidad para facilitar el flujo de aire, una instalación rápida y un uso mínimo de la ruta.

Refrigeración Líquida
Refrigeración Líquida

Las placas frías refrigeradas por líquido estabilizan el entorno de la bandeja, permitiendo que los transceptores OSFP disipen el calor de manera efectiva a través de disipadores montados.

Technical FAQ

+ ¿Cómo se mantiene el recuento de la SU manejable con 9.216 fibras?
Mediante el uso de una jerarquía de cableado por niveles. Los troncales de alta densidad de fibra reemplazan miles de cables de conexión MPO individuales, reduciendo el volumen físico y evitando obstrucciones de enfriamiento.
+ ¿Qué es el 'Factor de Bloqueo 5:3' en la estructura de almacenamiento?
A diferencia de la estructura de computación no bloqueante (1:1), la red de almacenamiento está intencionalmente sobresuscrita. Esto reduce los costos y la complejidad de la fibra, al tiempo que cumple con el requisito de 40 GB/s por nodo para el almacenamiento. El despliegue a menudo utiliza cables de conexión MPO compatibles con NVIDIA.
+ ¿Por qué la estructura NVLink interna no tiene fibra?
NVIDIA utiliza un backplane de cobre pasivo y cartuchos de cable dentro del rack NVL72. Esto elimina miles de transceptores ópticos y fibras, reduciendo significativamente el consumo de energía y la latencia. La fibra óptica se reserva para la estructura de computación de escalado horizontal.
+ ¿Qué sucede cuando escalamos a 16 Unidades Escalables?
A la escala de 16 SU (9.216 GPUs), el recuento total de fibra activa solo para la estructura de computación alcanza los 18.432 hilos. La gestión de esta densidad requiere carcasas de alta densidad diseñadas específicamente para fibra óptica de alta densidad y arquitecturas de conmutación de grupo de core centralizadas.
+ ¿Por qué se utiliza MPO-8 en lugar del estándar MPO-12?
Los transceptores modernos 400G NDR y 800G XDR utilizan óptica paralela de 4 u 8 carriles. Una alineación MPO de 8 fibras coincide perfectamente con la configuración de 4x Tx y 4x Rx. El uso de troncales MPO activos de 8 fibras elimina las fibras ‘oscuras’ o desperdiciadas dentro de la estructura del clúster.
+ ¿Cuál es la importancia del pulido APC (Angled Physical Contact)?
La señalización de alta velocidad 100G-PAM4 es extremadamente sensible a las retroreflexiones. El ángulo de 8 grados de un conector APC asegura que la luz reflejada sea absorbida por el revestimiento de la fibra, manteniendo la alta Pérdida de Retorno Óptico (ORL) requerida para un entrenamiento de IA sin errores.
+ ¿Cómo afecta la densidad de fibra a las salas de IA con refrigeración líquida?
Incluso con bandejas refrigeradas por líquido, el aire debe circular para gestionar el calor secundario. El uso de cables SmartRibbon de alta densidad reduce significativamente el diámetro del cable, asegurando que el cableado físico no obstruya el flujo de aire o los colectores de refrigeración líquida.
+ ¿Cuáles son las limitaciones de distancia para el cableado a nivel de SU?
El multimodo (OM4/OM5) está restringido a 50 metros para 400G/800G. Para enlaces centralizados de Spine a Core que superen esto, la fibra monomodo G.657.A1 es obligatoria para soportar mayores alcances sin degradación de la señal.
+ ¿Puedo usar cables exteriores estándar para los backbones de centros de datos de IA?
No. Las salas de IA interiores requieren LSZH (Low Smoke Zero Halogen), Riser o Plenum para cumplir con las regulaciones de seguridad contra incendios requeridas según las normativas locales. Para vías de alta densidad, los cables interiores SlimCORE especializados proporcionan el recuento de hilos necesario en un diámetro reducido.
+ ¿Cuál es el beneficio de las pigtails terminadas en fábrica en la SU?
Las pigtails de fibra óptica con cordón MPO permiten el empalme de fusión masiva rápido en la capa Spine o Core. Esta terminación controlada en fábrica en un extremo proporciona los beneficios de la preterminación, mientras que el extremo ‘sin terminar’ permite flexibilidad para ajustar a la longitud requerida in situ.

Diseñe su Fábrica de IA

ScaleFibre ofrece soluciones de cableado preterminado para implementaciones de NVIDIA DGX SuperPOD.

Contactar

Obtenga detalles sobre troncales de alta densidad de fibra para su NVIDIA DGX SU.