Entrenamiento, inferencia y RAG: un nuevo amanecer para la IA

Por Douglas Wallace, Gerente de Ventas Distrital, América Latina y el Caribe en Pure Storage.

Pure Storage IA

El 30 de noviembre de 2022 fue un día monumental. Ese fue el día en que OpenAI lanzó ChatGPT al mundo, el resto es historia; literalmente. Han pasado dos años desde entonces y hemos visto un aumento meteórico en el interés por la IA. Esto ha llevado a un aumento de casi 10 veces en la capitalización de mercado de Nvidia, el fabricante líder de GPU, y predicciones descabelladas sobre la posible inversión total de las empresas en Inteligencia Artificial, así como el impacto que tendrá en la sociedad.

Esto se siente muy diferente a los amaneceres de IA anteriores que hemos visto en los últimos 70 años, desde la Prueba de Turing, las derrotas de los grandes maestros del ajedrez, hasta la conducción autónoma y ahora la explosión de la GenAI. El juego ha cambiado por completo, pero todavía se basa en ciertos conceptos fundamentales. 

Durante muchos años, los avances de la IA se han basado en tres desarrollos clave:

  • Recursos informáticos más potentes en forma de GPU.
  • Algoritmos o modelos mejorados, como es el caso de la arquitectura Transformer y los LLM. 
  • Acceso a cantidades masivas de datos: en un nivel muy alto, las fases de un proyecto de IA incluyen la recopilación y preparación de datos, el desarrollo y entrenamiento de modelos y la implementación de modelos, también conocida como inferencia.

Todo es cuestión de datos

La recopilación y preparación de datos no se puede pasar por alto: los datos de buena calidad, relevantes e imparciales son clave para un proyecto de IA exitoso. A menudo se cita que las organizaciones tienen dificultades para comprender sus datos, identificar la propiedad de estos y romper los silos para permitir que esos datos se utilicen de manera efectiva. 

Sin acceso a datos de alta calidad, es poco probable que una iniciativa tenga éxito. Cada vez más, las organizaciones utilizan datos multimodales, no solo texto, sino también audio, imágenes e incluso video en sus proyectos de IA. La cantidad de datos y, por lo tanto, los requisitos de almacenamiento subyacentes son significativos.

Entrenamiento del modelo

La fase de entrenamiento generalmente se aborda de una de dos maneras. Entrenamiento del modelo fundamental, que implica aprovechar una gran cantidad de datos, construir un modelo de IA desde cero y entrenar iterativamente ese modelo para producir un modelo general para su uso. 

Esto generalmente lo llevan a cabo grandes empresas de tecnología con muchos recursos. Meta ha hablado recientemente sobre el entrenamiento de su modelo Llama 3.1 de código abierto de 405 mil millones de parámetros con más de 15 billones de tokens; se informa que esto llevó alrededor de 40 millones de horas de GPU en 16 000 GPU. Este largo tiempo de entrenamiento del modelo resalta un aspecto clave para el entrenamiento de modelos grandes: puntos de control frecuentes para permitir la recuperación de fallas. Con modelos grandes, es esencial que el almacenamiento utilizado para los puntos de control tenga un rendimiento y una capacidad de escritura muy altos.

El segundo enfoque de entrenamiento es el ajuste fino del modelo. Esto implica tomar uno existente, donde otra organización ha hecho el trabajo pesado, y aplicar datos específicos del dominio a ese modelo a través de un entrenamiento adicional. De esta manera, una organización se beneficia de tener uno personalizado, pero sin entrenarlo desde cero.

Cualquiera sea el enfoque, el entrenamiento necesita un procesamiento paralelo masivo con GPU, lo que requiere un alto rendimiento y velocidades de acceso para manejar grandes conjuntos de datos de manera eficiente. Por lo tanto, el almacenamiento de datos para el entrenamiento de IA debe ofrecer un rendimiento muy alto, sobre todo para mantener las GPU alimentadas con datos, escalabilidad para gestionar grandes conjuntos de datos de entrenamiento y confiabilidad dada la importancia y el costo de los modelos de entrenamiento.

En producción

Una vez que se ha entrenado un modelo y su rendimiento cumple con los requisitos, se lo pone en producción. Esto es cuando el modelo utiliza datos que no ha visto antes para sacar conclusiones o proporcionar información. Esto se conoce como inferencia y es cuando se obtiene valor de una iniciativa de IA. El uso de recursos y el costo asociados con la inferencia eclipsan al del entrenamiento porque la inferencia tiene demandas de computación y almacenamiento de manera constante y potencialmente a gran escala; piensa en millones de usuarios que acceden a un chatbot para el servicio al cliente.

El almacenamiento subyacente para la inferencia debe ofrecer un alto rendimiento, ya que esto es clave para proporcionar resultados oportunos, así como una escalabilidad fácil para cumplir con los requisitos de almacenamiento de los datos que se introducen en el modelo para el mantenimiento de registros y para proporcionar datos de reentrenamiento. La calidad de los resultados de la inferencia está directamente relacionada con la calidad del modelo entrenado y el conjunto de datos de entrenamiento. 

La IA generativa proporcionó un giro a la precisión de la inferencia; la naturaleza de esta tecnología significa que las imprecisiones son muy probables, conocidas como alucinaciones. Estas han causado problemas que han aparecido con frecuencia en los titulares.

Mejorar la precisión

Los usuarios de ChatGPT se darán cuenta de la importancia de la consulta introducida en el modelo. Una consulta completa bien estructurada puede dar como resultado una respuesta mucho más precisa que una pregunta cortante. Esto ha dado lugar al concepto de «ingeniería rápida», en el que se proporciona un gran conjunto de datos bien elaborados como consulta al modelo para obtener el resultado óptimo.

Un enfoque alternativo que está adquiriendo cada vez más importancia es la generación aumentada de recuperación, o RAG. Este aumenta la consulta con los datos propios de una organización en forma de contexto específico del caso de uso que proviene directamente de una base de datos vectorial como Chroma o Milvus

Douglas Wallace, Gerente de Ventas Distrital, América Latina y el Caribe en Pure Storage.
Douglas Wallace, Gerente de Ventas Distrital, América Latina y el Caribe en Pure Storage.

En comparación con la ingeniería rápida, RAG produce mejores resultados y reduce significativamente la posibilidad de alucinaciones. Igualmente, importante es el hecho de que se pueden utilizar datos actuales y oportunos con el modelo en lugar de limitarse a una fecha límite histórica.

Este enfoque depende de la vectorización de los datos de una organización, lo que permite integrarlos en la arquitectura general. Las bases de datos vectoriales suelen experimentar un crecimiento significativo en el tamaño del conjunto de datos en comparación con la fuente, hasta 10 veces, y son muy sensibles al rendimiento, dado que la experiencia del usuario está directamente relacionada con el tiempo de respuesta de la consulta de la base de datos vectorial. Como tal, el almacenamiento subyacente en términos de rendimiento y escalabilidad juega un papel importante en la implementación exitosa de RAG.

El enigma energético de la IA

En los últimos años, los costos de la electricidad se han disparado en todo el mundo, sin signos de desaceleración. Además, el auge de la IA generativa significa que las necesidades energéticas de los centros de datos se han multiplicado por muchas. De hecho, la IEA estima que el uso de energía de esta tecnología, los centros de datos y las criptomonedas representaron casi el 2% de la demanda energética mundial en 2022, y que podría duplicarse para 2026. 

Esto se debe en parte a las altas demandas de energía de las GPU que sobrecargan los centros de datos, requiriendo 40-50 kilovatios por rack, muy por encima de la capacidad de los data center. 

Impulsar la eficiencia en todo el centro de datos es esencial, lo que significa que la infraestructura como el almacenamiento de datos all-flash es crucial para administrar la energía y el espacio, ya que cada vatio ahorrado en el almacenamiento puede ayudar a alimentar más GPU. 

Con algunas tecnologías de almacenamiento all-flash es posible lograr una reducción de hasta el 85 % en el uso de energía y hasta un 95 % menos de espacio en rack que las ofertas de la competencia, lo que brinda un valor significativo como parte clave del ecosistema de IA.

El almacenamiento de datos es parte del rompecabezas de la IA

El potencial de la IA es casi inimaginable. Sin embargo, para que los modelos funcionen, se necesita un enfoque cuidadoso en todo el entrenamiento, ya sea básico o de ajuste fino, para obtener una inferencia precisa y escalable. La adopción de RAG se puede aprovechar para mejorar aún más la calidad de los resultados.

Está claro que en todas las etapas los datos son un componente clave; el almacenamiento flash es esencial para generar el impacto transformador de la IA en las empresas y la sociedad, ya que ofrece un rendimiento, una escalabilidad y una confiabilidad inigualables. Flash respalda la necesidad de la IA de tener acceso en tiempo real a datos no estructurados, lo que facilita tanto el entrenamiento como la inferencia, al tiempo que reduce el consumo de energía y las emisiones de carbono, lo que lo hace vital para una infraestructura de IA eficiente y sostenible.

banner-web