Se construirá una supercomputadora cuyo objetivo es ayudar en el entrenamiento de la nueva generación de Inteligencia Artificial avanzada
Por: Agencias
Estados Unidos.- El avance de las tecnologías ha sido constante en los últimos años. Cada vez son más impresionantes los avances en esta área. Uno de los más recientes: la supercomputadora de Meta, el “AI Research SuperCluster (RSC)”; una unidad que cuando esté terminada, será la “supercomputadora de inteligencia artificial más rápida del mundo”.
El día de hoy, Meta ha anunciado la construcción de la AI Research SuperCluster. Una supercomputadora cuyo objetivo es ayudar en el entrenamiento de la nueva generación de Inteligencia Artificial avanzada. Cuando esta computadora esté terminada, su red conectará 16 mil unidades de procesamiento gráfico (GPU, por sus siglas en inglés) como puntos finales. Lo cual, la convertirá en una de las redes desplegadas más grandes de su tipo.
Su objetivo, en términos generales, es el de desarrollar y entrenar modelos de inteligencia artificial avanzada que puedan aprender de billones de ejemplos; así como trabajar en diferentes lenguas, analizar texto, imagen y video; desarrollar nuevas herramientas de realidad aumentada, entre otras cosas. De este modo, los investigadores de Meta podrán entrenar los modelos más grandes necesarios para inteligencias artificiales muy avanzadas que se utilizan para el procesamiento natural del lenguaje (NPL) o reconocimiento de voz.
Como es esperado, entrenar y desarrollar esas tecnologías tan avanzadas requiere de un poder de procesamiento muy grande; por eso es necesaria una infraestructura de cómputo de alto procesamiento.
De hecho, esta no es la primera vez que Meta (antes Facebook) construye una estructura como la AI Research SuperCluster.
En 2017, los investigadores de Meta desarrollaron la primera generación de este tipo de infraestructuras. Esta red estaba compuesta por 22 mil GPUs Nvidia V100 Tensor Core y podía realizar 35 mil trabajos de entrenamiento por día.
Pero la RSC será aún más poderosa: ejecuta flujos de trabajo hasta 20 veces más rápido; corre la NVIDIA Collective Communication Library (NCCL) más de nueve veces más rápido; y entrena modelos de NPL de gran escala tres veces más rápido si la comparamos con la de 2017. Esto significa que un modelo con decenas de miles de millones de parámetros puede terminar el entrenamiento en tres semanas, comparada con las nueve semanas que tomaba antes.
¿Cuál será el uso de la RSC?
Actualmente, la inteligencia artificial se utiliza para decenas de situaciones cotidianas diferentes: recomendaciones en plataformas de streaming, traducción de textos en diferentes lenguas, detectar contenido potencialmente dañino y más. Pero, para los modelos más avanzados de IA de la siguiente generación, se requieren supercomputadoras potentes con capacidad de llevar a cabo quintillones de operaciones por segundo.
Sin embargo, es importante realizar una aclaración: actualmente, el objetivo más grande de la RSC es la investigación.
“Nuestra misión es impulsar el estado de la investigación con inteligencia artificial. Cuando empezamos a construir este clúster, decidimos que lo primero que queríamos atacar era la experiencia en investigación. Al final del día, queremos acelerar la parte de la investigación antes de la parte de la producción”, explicó Kevin Lee, gerente de programación técnica de Meta.
“Es para investigación. Sin embargo, algunas direcciones que podríamos tomar en el futuro son: lentes de realidad aumentada y reconocimiento del lenguaje”, agregó el ingeniero de Software en Meta, Shubho Sengupta.
Además, la RSC podría ayudar a construir sistemas de inteligencia artificial muy novedosos que impulsen la interpretación de voz en tiempo real para grupos grandes de personas donde cada una hable una lengua distinta. Lo cual, se podría aplicar a investigaciones colaborativas u otras situaciones del estilo.
Pero al final del día, la RSC ayudará a crear las tecnologías necesarias para el metaverso: donde productos y aplicaciones impulsadas por IA van a tomar un papel protagónico.
¿Para qué sirve todo ese poder de almacenamiento y procesamiento?
Desde 2013, Meta se ha interesado en la inversión de largo plazo en inteligencia artificial, por lo que crearon el Facebook AI Research lab (laboratorio de investigación de IA de Facebook). Con el cual, lograron grandes avances en diferentes áreas, como la del aprendizaje auto supervisado o los modelos Transformers.
Ese primer tipo de aprendizaje le permite a los algoritmos aprender solos con la ayuda de un gran número de ejemplos, mientras que el segundo hace posible que los modelos de IA puedan razonar más efectivamente al enfocarse en áreas específicas de la información que se les provee.
Pero ahora, el RSC ayudará a entrenar modelos de ese estilo más avanzados con retos más complejos. Por ejemplo: reconocimiento de voz en entornos muy ruidosos como conciertos; la NPL tendrá que reconocer y entender más lenguas, acentos y dialectos. Mientras que otros avances podrán ayudar a resolver otro tipo de tareas complejas. Asimismo, la RSC “ayuda a garantizar que la investigación se traduce de manera efectiva en la práctica al permitirnos incluir ejemplos del mundo real”.
Este tipo de supercomputadoras de inteligencia artificial se construyen combinando varias unidades de procesamiento gráfico (GPUs) en nodos de cómputo. Los cuales se conectan por un tejido de red de alto rendimiento que permite una rápida comunicación entre esos GPUs.
Actualmente, la RSC se compone de un total de 760 sistemas NVIDIA DGX A100 como sus nodos de cómputo, lo cual da un total de 6 mil 80 GPUs. Esas GPU se comunican a través de la InfiniBand Quantum de 200 GB/s de dos niveles sin sobresuscripción de NVIDIA. En cuanto al almacenamiento, la RSC tiene 175 petabytes de Pure Storage FlashArray; 46 petabytes de almacenamiento en caché en los sistemas Penguin Computing Altus y 10 petabytes de Pure Storage FlashBlade.
Para efectos de escala: un solo petabyte puede almacenar más de 65 mil películas en 4K (que pesen alrededor de 16 GB cada una).