Oracle y AMD ofrecen un rendimiento innovador para la IA a gran escala y cargas de trabajo autónomas

Las unidades basadas en MI355X de AMD Instinct están diseñadas para ofrecer un valor superior, flexibilidad en la nube y compatibilidad de código abierto, por lo que son ideales para los clientes que ejecutan los mayores modelos de lenguaje y cargas de trabajo de IA de la actualidad.

AMD Oracle

Oracle y AMD anunciaron que las GPU AMD Instinct MI355X estarán disponibles en Oracle Cloud Infrastructure (OCI), ofreciendo a los clientes más alternativas y una relación precio-rendimiento dos veces mejor que la generación anterior en cargas de entrenamiento e inferencia de IA a gran escala. Además, Oracle ofrecerá clústeres de IA a zettaescala, acelerados con los últimos procesadores AMD Instinct con hasta 131 072 GPU MI355X, para permitir a los clientes crear, entrenar e inferir IA a gran escala.

«Con el fin de brindar apoyo a aquellos clientes que ejecutan las cargas de trabajo de IA más exigentes en la nube, nos comprometemos a proporcionar las ofertas de infraestructura de IA más completas», señala Mahesh Thiagarajan, Vicepresidente Ejecutivo de Oracle Cloud Infrastructure. «Las GPU AMD Instinct, junto con el rendimiento, las redes avanzadas, la flexibilidad, la seguridad y la escala de OCI, ayudarán a nuestros clientes a satisfacer sus necesidades de inferencia y entrenamiento para cargas de trabajo de IA y nuevas aplicaciones de IA autónoma».

Para admitir nuevas aplicaciones de IA que manejan conjuntos de datos cada vez más grandes y complejos, los clientes necesitan soluciones diseñadas específicamente para el entrenamiento de IA a gran escala. OCI Supercluster, a zettaescala y con GPU AMD Instinct MI355X, responde a ese desafío al ofrecer una arquitectura de red de clústeres RDMA de latencia ultrabaja y de alto rendimiento. AMD Instinct MI355X ofrece casi el triple de potencia de cálculo y un incremento del 50% de la memoria de gran ancho de banda con respecto a la generación anterior.

«AMD y Oracle tienen una historia compartida proporcionando a los clientes soluciones abiertas que ofrecen un rendimiento y una eficiencia elevados, así como una mayor flexibilidad de diseño de los sistemas», afirma Forrest Norrod, Vicepresidente Ejecutivo y Director General del Grupo Empresarial de Soluciones de Centros de Datos de AMD. «La última generación de GPU AMD Instinct y NIC Pollara incluida en Oracle Cloud Infrastructure facilitará nuevos casos de uso de inferencia, ajuste y entrenamiento, ofreciendo más opciones a los clientes a medida que crezca la adopción de la IA».

Las GPU AMD Instinct MI355X llegan a Oracle Cloud Infrastructure

Con las GPU AMD Instinct MI355X en Oracle Cloud Infrastructure, los clientes podrán disfrutar de:

Una mejora significativa del rendimiento: los clientes podrán multiplicar por 2,8 el rendimiento de sus implementaciones de IA. Los clientes pueden esperar resultados más rápidos, una latencia menor y capacidad para ejecutar cargas de trabajo de IA mayores, lo que les permite innovar con la IA a gran escala.

Memoria mayor y más rápida: permite a los clientes ejecutar grandes modelos completamente en memoria, mejorando las velocidades de inferencia y entrenamiento para modelos que requieren un gran ancho de banda de memoria. Las nuevas unidades ofrecen 288 gigabytes de memoria de gran ancho de banda 3 (HBM3) y hasta ocho terabytes por segundo de ancho de banda de memoria.

Nuevo soporte de FP4: permite a los clientes implementar modelos modernos de IA generativa y grandes modelos de lenguaje de forma rentable con el soporte del nuevo estándar de recursos informáticos de punto flotante (FP4) de 4 bits. Esto permite una inferencia ultra eficiente y de alta velocidad.

Diseño denso y refrigeración líquida: permite a los clientes maximizar la densidad de rendimiento a 125 kilovatios por rack para las cargas de trabajo de IA exigentes. Con 64 GPU por rack de 1400 vatios cada una, los clientes pueden esperar tiempos de entrenamiento más rápidos con un mayor rendimiento y una latencia menor.

Un diseño pensado para el entrenamiento y la inferencia a escala de producción: ofrece soporte a los clientes en el despliegue de nuevas aplicaciones de IA autónoma con un token de tiempo de respuesta (TTFT) más rápido y un alto rendimiento de tokens por segundo. Los clientes pueden esperar una mejor relación entre precio y rendimiento tanto para las cargas de trabajo de entrenamiento como para las de inferencia.

Potente nodo principal: ayuda a los clientes a optimizar su rendimiento de GPU al permitir una orquestación de las tareas y un procesamiento de los datos más eficientes con una CPU de alta frecuencia AMD Turin con hasta tres terabytes de memoria del sistema.

Pila de código abierto: permite a los clientes aprovechar arquitecturas flexibles y migrar fácilmente su código existente sin depender de ningún proveedor a través de AMD ROCm. AMD ROCm es una pila de software abierta que incluye modelos de programación, herramientas, compiladores, bibliotecas y tiempos de ejecución conocidos para el desarrollo de soluciones de IA y computación de alto rendimiento en GPU AMD.

Innovación en la red con AMD Pollara: ofrece a los clientes una funcionalidad RoCE avanzada que permite diseños de red innovadores. Oracle será la primera empresa en implementar NIC AMD Pollara AI en redes de backend, proporcionando funciones avanzadas RoCE, como control de congestión programable y soporte para los estándares abiertos del sector del Ultra Ethernet Consortium (UEC) para redes de alto rendimiento y baja latencia.

banner-web