ARQUITECTURA DE INFRAESTRUCTURA

Infraestructura NVIDIA GB200 NVL72 y Cableado MPO-8 APC para Unidades Escalables

Desglosando la arquitectura de cableado de una Unidad Escalable (SU) Blackwell, donde 8 racks convergen en 9.216 filamentos de fibra activos.

La Unidad Escalable (SU) DGX GB200 representa un gran cambio en la arquitectura de los centros de datos. La SU es una entidad unificada de 576 GPUs interconectadas por 9.216 filamentos de fibra activos. ScaleFibre proporciona los troncales de precisión terminados necesarios para gestionar esta densidad.

Las 4 Fabricaciones Físicas de SuperPOD

NVIDIA segmenta la SU en distintas capas físicas para aislar el tráfico de la GPU.

MN-NVL (NVLink 5)

Escalado Vertical

La red ‘interna’ del rack que conecta 72 GPUs a 1,8 TB/s.

  • Cero Fibra Óptica
  • Backplane de Cobre Pasivo
  • Conectores 'blind-mate'

InfiniBand de Cómputo

Escalado Horizontal

La principal fabricación ‘Este-Oeste’ para el entrenamiento masivo multinodo.

  • 4.608 fibras activas por SU
  • Topología optimizada para carril
  • Quantum-3/Quantum-2

Almacenamiento e In-Band

Interfaz

Fabricación basada en Ethernet para la ingesta y el aprovisionamiento de datos a alta velocidad.

  • Factor de Bloqueo 5:3
  • Descarga de DPU BlueField-3
  • Soporte VXLAN/RoCE

Gestión OOB

Plano de Control

La red aislada para telemetría de hardware, BMC y gestión de PDU.

  • Cobre RJ45/Cat6
  • Nivel de Switch SN2201
  • Seguridad de separación de aire física

Métricas de SU Exaescala

Una Unidad Escalable (SU) de 8 racks representa el bloque de construcción fundamental de la Fábrica de IA de NVIDIA.

9,216

Fibras Activas por SU

4,608

Filamentos Solo de Cómputo

5:3

Ratio de Bloqueo de Almacenamiento

400G/800G

Velocidades de Puerto Nativas

Los Tres Niveles de Conectividad SU

1
Nivel A: Servidor a Leaf

1.152 fibras por rack utilizando troncales de alta densidad de fibra o jumpers para conectar nodos NVL72 a Switches Leaf.

2
Nivel B: Leaf a Spine

Agregación del tráfico alineado por carril dentro de la SU utilizando enlaces no bloqueantes 1:1 para cómputo.

3
Nivel C: Spine a Core

Escalando más allá de la SU a un área de Core centralizada utilizando troncales de alta capacidad.

Patching Tradicional (Punto a Punto)

  • Complejidad Manual: Requiere 9.216 cables de parcheo individuales por bloque de 8 racks.
  • Obstrucción del Flujo de Aire: Densos haces de cables bloquean las rutas de escape de la refrigeración líquida.
  • Perfil de Riesgo: Alta probabilidad de ‘carriles cruzados’ durante el parcheo manual 1:1.
  • Tiempo de Implementación: Más de 115 horas para el enrutamiento y etiquetado manual por SU.

Troncalizado Modular de Alta Densidad de Fibra

  • Plug-and-Play: Consolida miles de fibras en troncales pre-terminadas de 128F/144F/256F/288F/576F a medida.
  • Optimización Térmica: Cables de diámetro pequeño maximizan el flujo de aire en racks densos.
  • Eficiencia de Ruta: Consolida 1.152 fibras activas por rack en backbones MPO de alta capacidad.
  • Perfil de Instalación: Despliegue rápido mediante ensamblajes pre-terminados y probados en fábrica.

Crecimiento de Fibra Activa: De Nodo a SuperPOD Completo

Complejidad del Cableado
9.216 fibras activas por SU requieren troncales modulares de alta densidad de fibra para evitar el 'caos de cables' que bloquea el flujo de aire.

Unidad Escalable Visualizada

El Bloque de Cómputo de 8 Racks
El Bloque de Cómputo de 8 Racks

Una SU (Unidad Escalable) NVIDIA GB200 consta de 8 racks, cada uno albergando un sistema DGX GB200 NVL72 con 72 GPUs.

Distribución de Troncales de Alta Densidad de Fibra
Distribución de Troncales de Alta Densidad de Fibra

Consolidación de miles de fibras de rack en troncales de alta densidad para la liberación del flujo de aire, una instalación rápida y un uso mínimo de la ruta.

Refrigeración Líquida
Refrigeración Líquida

Las placas frías refrigeradas por líquido estabilizan el entorno de la bandeja, permitiendo que los transceptores OSFP disipen el calor de manera efectiva a través de disipadores de calor montados.

Technical FAQ

+ ¿Cómo se mantiene el recuento de SU manejable en 9.216 fibras?
Mediante el uso de una jerarquía de cableado por niveles. Los troncales de alta densidad de fibra reemplazan miles de cables de parcheo MPO individuales, reduciendo el volumen físico y evitando obstrucciones de enfriamiento.
+ ¿Qué es el 'Factor de Bloqueo 5:3' en la fabricación de almacenamiento?
A diferencia de la fabricación de cómputo no bloqueante (1:1), la red de almacenamiento está intencionalmente sobredimensionada. Esto reduce los costos y la complejidad de la fibra, al mismo tiempo que cumple con el requisito de 40 GB/s por nodo para el almacenamiento. La implementación a menudo utiliza cables de parcheo MPO compatibles con NVIDIA.
+ ¿Por qué la fabricación interna de NVLink no tiene fibra?
NVIDIA utiliza un backplane de cobre pasivo y cartuchos de cable dentro del rack NVL72. Esto elimina miles de transceptores y fibras ópticas, reduciendo significativamente el consumo de energía y la latencia. La fibra óptica se reserva para la fabricación de cómputo escalada.
+ ¿Qué sucede cuando escalamos a 16 Unidades Escalables?
A escala de 16 SU (9.216 GPUs), el recuento total de fibras activas solo para la fabricación de cómputo alcanza los 18.432 filamentos. La gestión de esta densidad requiere carcasas de alta densidad diseñadas específicamente para fibras ópticas de alta capacidad y arquitecturas de conmutación de grupo centralizadas.
+ ¿Por qué se utiliza MPO-8 en lugar del MPO-12 estándar?
Los transceptores modernos 400G NDR y 800G XDR utilizan ópticas paralelas de 4 u 8 carriles. Una alineación MPO de 8 fibras coincide perfectamente con la configuración 4x Tx y 4x Rx. El uso de troncales MPO activos de 8 fibras elimina las fibras ‘oscuras’ o desperdiciadas dentro de la fabricación del clúster.
+ ¿Cuál es la importancia del pulido APC (Angled Physical Contact)?
La señalización 100G-PAM4 de alta velocidad es extremadamente sensible a las retro-reflexiones. El ángulo de 8 grados de un conector APC asegura que la luz reflejada sea absorbida por el revestimiento de la fibra, manteniendo la alta Pérdida de Retorno Óptico (ORL) requerida para un entrenamiento de IA sin errores.
+ ¿Cómo afecta la densidad de fibra a las salas de IA con refrigeración líquida?
Incluso con bandejas refrigeradas por líquido, el aire debe circular para gestionar el calor secundario. El uso de cables SmartRibbon de alta densidad reduce significativamente el diámetro del cable, asegurando que el cableado físico no obstruya el flujo de aire o los colectores de refrigeración líquida.
+ ¿Cuáles son las limitaciones de distancia para el cableado a nivel de SU?
El multimodo (OM4/OM5) está restringido a 50 metros para 400G/800G. Para enlaces centralizados de Spine a Core que excedan esto, la fibra monomodo G.657.A1 es obligatoria para soportar mayores alcances sin degradación de la señal.
+ ¿Puedo usar cables exteriores estándar para los backbones de los centros de datos de IA?
No. Las salas de IA interiores requieren LSZH (Bajo Humo Cero Halógenos), Riser o Plenum para cumplir con las normativas de seguridad contra incendios requeridas, según las regulaciones locales. Para rutas de alta densidad, los cables interiores SlimCORE especializados proporcionan el recuento de filamentos necesario en un diámetro reducido.
+ ¿Cuál es el beneficio de las pigtails terminadas en fábrica en la SU?
Las pigtails de fibra óptica con conector MPO permiten un empalme rápido por fusión masiva en la capa Spine o Core. Esta terminación controlada en fábrica en un extremo proporciona los beneficios de la pre-terminación, mientras que el extremo ‘sin conector’ permite flexibilidad para ajustar la longitud requerida en el sitio.

Diseñe su Fábrica de IA

ScaleFibre ofrece soluciones de cableado pre-terminado para implementaciones de NVIDIA DGX SuperPOD.

Póngase en Contacto

Obtenga detalles sobre troncales de alta densidad de fibra para su NVIDIA DGX SU.