La escala y complejidad de las cargas de trabajo modernas de Inteligencia Artificial (IA) siguen creciendo, pero también lo hacen las expectativas en torno al rendimiento y la facilidad de implementación. En este contexto, ROCm 6.4 se presenta como una innovación para las organizaciones que construyen el futuro de la IA y HPC en las GPUs AMD Instinct.
Con el creciente apoyo en los principales marcos de IA, contenedores optimizados y herramientas de infraestructura modular, el software ROCm sigue ganando impulso que permite a los clientes innovar más rápido, operar de manera más inteligente y mantener el control de su infraestructura de IA.
Ya sea que estés implementando la inferencia en clústeres de varios nodos, entrenando modelos de parámetros multimillonarios o administrando grandes clústeres de GPU, el software ROCm 6.4 ofrece una ruta perfecta hacia un alto rendimiento con las GPUs AMD Instinct.
Principales innovaciones
Contenedores ROCm para formación e inferencia: IA plug-and-play en las GPUs Instinct
Configurar y mantener entornos optimizados para la formación e inferencia consume tiempo, es propenso a errores y ralentiza los ciclos de iteración. El software ROCm 6.4 introduce un potente conjunto de contenedores listos para usar y pre-optimizados tanto para entrenamiento como para inferencia, diseñados específicamente para las GPU AMD Instinct.
- vLLM (Inference Container): construido para la inferencia LLM de baja latencia con soporte plug-and-play para modelos abiertos como el último Gemma 3 (día-0), Llama, Mistral, Cohere y más.
- SGLang (Inference Container): optimizado para los flujos de trabajo de DeepSeek R1 y agentic, ofreciendo un gran rendimiento y eficiencia con DeepGEMM, soporte FP8 y atención multicapa paralela.
- PyTorch (Training Container): incluye compilaciones de PyTorch optimizadas para el rendimiento con soporte para mecanismos avanzados de atención,ayudando así a habilitar un entrenamiento LLM sin problemas en las GPU AMD Instinct MI300X.
- Megatron-LM (Training Container): este contenedor representa una bifurcación personalizada de Megatron-LM afinada con ROCm. Esta versión se encuentra diseñada para entrenar eficientemente modelos de lenguaje a gran escala, incluyendo Llama 3.1, Llama 2 y DeepSeek-V2-Lite.
Estos contenedores proporcionan a los investigadores un acceso más rápido a entornos llave en mano para evaluar nuevos modelos y ejecutar experimentos. Los desarrolladores de modelos pueden aprovechar el soporte pre-ajustado para los LLMs más avanzados de la actualidad sin necesidad de pasar tiempo en configuraciones complejas. Mientras que, para los equipos de infraestructura, estos contenedores ofrecen una implementación consistente y reproducible en entornos de desarrollo, pruebas y producción, lo que permite una ampliación más fluida y un mantenimiento simplificado.
PyTorch para ROCm recibe una importante actualización: atención más rápida para un entrenamiento más rápido
El entrenamiento de modelos de lenguaje grande (LLMs) continúa empujando los límites de la computación y la memoria. Por tal motivo, el software ROCm 6.4 incorpora importantes mejoras de rendimiento dentro del marco PyTorch, incluidos los optimizados Flex Attention, TopK y Scaled Dot-Product Attention (SDPA).
- Flex Attention: proporciona un salto significativo en el rendimiento sobre ROCm 6.3, reduciendo drásticamente el tiempo de entrenamiento y la sobrecarga de memoria, especialmente en las cargas de trabajo de LLM que dependen de mecanismos avanzados de atención.
- TopK: las operaciones ahora se ejecutan hasta 3 veces más rápido, acelerando el tiempo de respuesta de inferencia mientras preserva la calidad de salida.
- SDPA: inferencia de contexto largo más suave.
Estas mejoras se traducen en tiempos de entrenamiento más rápidos, reducción de la sobrecarga de memoria y una utilización más eficiente del hardware. Como resultado, los investigadores de IA pueden ejecutar más experimentos en menos tiempo, los desarrolladores pueden ajustar modelos más grandes con mayor eficiencia y, en última instancia, los clientes de GPU Instinct se benefician de un menor tiempo para entrenar y un mejor retorno de las inversiones en infraestructura.
Rendimiento de inferencia de nueva generación en las GPU AMD Instinct con SGLang y vLLM
Ofrecer inferencia de baja latencia y alto rendimiento para modelos de gran tamaño es un desafío constante. ROCm 6.4 aborda este problema de frente con compilaciones optimizadas para inferencia de vLLM y SGLang, específicamente adaptadas a las GPU AMD Instinct. Con un soporte robusto para modelos líderes como Grok, DeepSeek R1, Gemma 3, Llama 3.1 (8B, 70B, 405B), esta versión permite a los investigadores de IA lograr resultados más rápidos en benchmarks a gran escala, mientras que los desarrolladores de modelos pueden implementar tuberías de inferencia mundial con un mínimo ajuste.
Mientras tanto, los equipos de infraestructura se benefician de contenedores estables y listos para la producción con actualizaciones semanales que ayudan a garantizar el rendimiento, la fiabilidad y la consistencia a escala.
- SGLang con DeepSeek R1: rendimiento récord alcanzado en el Instinct MI300X
- vLLM con Gemma 3: soporte día-0 para una implementación sin problemas en las GPUs Instinct
Juntas, estas herramientas proporcionan un entorno de inferencia full-stack, con contenedores estables y dev actualizados quincenalmente y semanalmente, respectivamente.
Gestión de clúster de GPU Seamless Instinct con operador de GPU AMD
El escalado y la gestión de las cargas de trabajo de GPU en los clústeres de Kubernetes a menudo implican actualizaciones manuales de controladores, tiempo de inactividad operativa y una visibilidad limitada del estado de la GPU. Con ROCm 6.4, AMD GPU Operator aporta automatización a la programación de la unidad de procesamiento gráfico, gestión del ciclo de vida de los controladores y operaciones de clúster en tiempo real que optimizan las operaciones de telemetría de extremo a extremo. Esto significa que los equipos de infraestructura pueden realizar actualizaciones con interrupciones mínimas, los administradores de IA y HPC pueden implementar con confianza las GPU AMD Instinct en entornos seguros y con capacidad de observación completa, y los clientes de Instinct se benefician de un tiempo de actividad más alto y un riesgo operativo reducido, y una infraestructura de IA más resistente.
Las nuevas características incluyen un cordón automatizado, drenaje y reinicio para las actualizaciones de laminación. Además, se presentó una ampliación del soporte para Red Hat OpenShift 4.16-4.17 y Ubuntu 22.04/24.04, lo que ayuda a garantizar la compatibilidad con los entornos empresariales y de nube modernos. Por último, con esta actualiación se incorpora un exportador de métricas de dispositivos basados en Prometheus para el seguimiento de la salud en tiempo real.
Modularidad del software con el nuevo controlador de GPU Instinct
Las pilas de controladores acopladas ralentizan los ciclos de actualización, aumentan el riesgo de mantenimiento y reducen la compatibilidad entre entornos. El software ROCm 6.4 introduce el controlador de GPU Instinct, una arquitectura modular que separa el controlador del núcleo del espacio de usuario ROCm.
Beneficios:
- Los equipos de Infra pueden ahora actualizar los controladores o las bibliotecas ROCm independientemente.
- Ventana de compatibilidad más larga de 12 meses (vs. 6 meses en versiones anteriores).
- Implementación más flexible en aplicaciones bare metal, contenedores y ISV.
Esto reduce el riesgo de cambios innecesarios y simplifica las actualizaciones en toda la flota, especialmente útiles para proveedores de nube, organizaciones gubernamentales y empresas con SLA estrictos.
Con estas innovaciones, ROCm 6.4 establece un avance hacia una infraestructura de IA más potente, flexible y fácil de administrar.