La GPU es el cerebro de la computadora con IA
En pocas palabras, la unidad de procesamiento gráfico (GPU) actúa como el cerebro de la computadora de IA.
Como sabrás, la unidad central de procesamiento (CPU) es el cerebro del ordenador. La ventaja de una GPU es que es una CPU especializada que puede realizar cálculos complejos. La forma más rápida de hacerlo es que grupos de GPU resuelvan un problema. Sin embargo, entrenar un modelo de IA puede llevar semanas o incluso meses. Una vez construido, se instala en un sistema informático front-end y los usuarios pueden hacerle preguntas, un proceso llamado inferencia.
Una computadora de IA que contiene múltiples GPU
La mejor arquitectura para resolver problemas de IA es usar un clúster de GPU en un rack, conectado a un conmutador en la parte superior. Se pueden conectar varios racks de GPU en una jerarquía de redes. A medida que el problema se vuelve más complejo, aumentan los requisitos de GPU, y algunos proyectos pueden necesitar implementar clústeres de miles de GPU.
Cada clúster de IA es una red pequeña
Al construir un clúster de IA, es necesario configurar una pequeña red de computadoras para conectar y permitir que las GPU trabajen juntas y compartan datos de manera eficiente.
La figura anterior ilustra un clúster de IA donde los círculos en la parte inferior representan los flujos de trabajo que se ejecutan en las GPU. Las GPU se conectan a los switches de la parte superior del rack (ToR). Estos switches también se conectan a los switches de la red troncal que se muestran sobre el diagrama, lo que demuestra la clara jerarquía de red necesaria cuando se utilizan varias GPU.
Las redes son un cuello de botella en la implementación de la IA
El otoño pasado, en la Cumbre Global del Open Computer Project (OCP), donde los delegados trabajaron juntos para construir la próxima generación de infraestructura de IA, el delegado Loi Nguyen de Marvell Technology planteó un punto clave: “la red es el nuevo cuello de botella”.
Técnicamente, la alta latencia o pérdida de paquetes debido a la congestión de la red puede provocar el reenvío de paquetes, lo que aumenta significativamente el tiempo de finalización del trabajo (JCT). Como resultado, millones o decenas de millones de dólares en GPU de empresas se desperdician debido a sistemas de IA ineficientes, lo que les cuesta ingresos y tiempo de comercialización.
La medición es una condición clave para el funcionamiento exitoso de las redes de IA
Para operar eficazmente un clúster de IA, las GPU deben aprovechar al máximo su capacidad para acortar el tiempo de entrenamiento y aplicar el modelo de aprendizaje para maximizar el retorno de la inversión. Por lo tanto, es necesario probar y evaluar el rendimiento del clúster de IA (Figura 2). Sin embargo, esta tarea no es sencilla, ya que, en términos de arquitectura del sistema, existen numerosas configuraciones y relaciones entre las GPU y las estructuras de red que deben complementarse para resolver el problema.
Esto crea muchos desafíos a la hora de medir las redes de IA:
- Dificultad para reproducir redes de producción completas en el laboratorio debido a limitaciones de costos, equipos, escasez de ingenieros de IA de red capacitados, espacio, energía y temperatura.
- La medición en el sistema de producción reduce la capacidad de procesamiento disponible del propio sistema de producción.
- Dificultad para reproducir con precisión los problemas debido a las diferencias en escala y alcance de los problemas.
- La complejidad de cómo las GPU están conectadas colectivamente.
Para abordar estos desafíos, las empresas pueden probar un subconjunto de las configuraciones recomendadas en un entorno de laboratorio para evaluar métricas clave como el tiempo de finalización del trabajo (JCT), el ancho de banda que el equipo de IA puede alcanzar y compararlo con el uso de la plataforma de conmutación y el uso de la caché. Esta evaluación comparativa ayuda a encontrar el equilibrio adecuado entre la carga de trabajo de la GPU/procesamiento y el diseño/configuración de la red. Una vez satisfechos con los resultados, los arquitectos informáticos y los ingenieros de red pueden implementar estas configuraciones en producción y medir los nuevos resultados.
Laboratorios de investigación corporativos, instituciones académicas y universidades trabajan para analizar todos los aspectos de la construcción y operación de redes de IA eficaces para abordar los desafíos de trabajar en redes de gran tamaño, especialmente a medida que las mejores prácticas siguen evolucionando. Este enfoque colaborativo y repetible es la única forma en que las empresas pueden realizar mediciones repetibles y probar rápidamente escenarios hipotéticos que constituyen la base para optimizar las redes para la IA.
(Fuente: Keysight Technologies)
[anuncio_2]
Fuente: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html
Kommentar (0)