image001.jpg

GPU ist das Gehirn des KI-Computers

Einfach ausgedrückt fungiert die Grafikverarbeitungseinheit (GPU) als Gehirn des KI-Computers.

Wie Sie vielleicht wissen, ist die Zentraleinheit (CPU) das Gehirn des Computers. Der Vorteil einer GPU besteht darin, dass sie eine spezialisierte CPU ist, die komplexe Berechnungen durchführen kann. Am schnellsten gelingt dies, indem Gruppen von GPUs ein Problem lösen. Das Training eines KI-Modells kann jedoch Wochen oder sogar Monate dauern. Sobald es erstellt ist, wird es in ein Front-End-Computersystem integriert, und Benutzer können dem KI-Modell Fragen stellen – ein Prozess, der als Inferenz bezeichnet wird.

Ein KI-Computer mit mehreren GPUs

Die beste Architektur zur Lösung von KI-Problemen ist die Verwendung eines GPU-Clusters in einem Rack, verbunden mit einem Switch auf dem Rack. Mehrere GPU-Racks können in einer Netzwerkhierarchie verbunden werden. Mit zunehmender Komplexität des Problems steigen die GPU-Anforderungen, und manche Projekte erfordern möglicherweise Cluster mit Tausenden von GPUs.

Jeder KI-Cluster ist ein kleines Netzwerk

Beim Aufbau eines KI-Clusters ist es notwendig, ein kleines Computernetzwerk einzurichten, um eine Verbindung herzustellen und es den GPUs zu ermöglichen, zusammenzuarbeiten und Daten effizient auszutauschen.

image002.jpg
Ein KI-Cluster

Die obige Abbildung zeigt einen KI-Cluster, wobei die Kreise unten die auf GPUs laufenden Workflows darstellen. Die GPUs sind mit den Top-of-Rack-Switches (ToR) verbunden. Die ToR-Switches sind außerdem mit den über dem Diagramm dargestellten Netzwerk-Backbone-Switches verbunden und veranschaulichen die klare Netzwerkhierarchie, die bei der Nutzung mehrerer GPUs erforderlich ist.

Netzwerke sind ein Engpass bei der KI-Bereitstellung
Beim Global Summit des Open Computer Project (OCP), bei dem die Teilnehmer im letzten Herbst gemeinsam an der Entwicklung der KI-Infrastruktur der nächsten Generation arbeiteten, brachte Loi Nguyen von Marvell Technology einen wichtigen Punkt auf den Punkt: „Die Vernetzung ist der neue Engpass.“

Technisch gesehen können hohe Paketlatenzen oder Paketverluste aufgrund von Netzwerküberlastung dazu führen, dass Pakete erneut gesendet werden, was die Auftragsabwicklungszeit (JCT) erheblich verlängert. Infolgedessen werden GPUs im Wert von Millionen oder Zehnmillionen Dollar in Unternehmen aufgrund ineffizienter KI-Systeme verschwendet, was sowohl Umsatz als auch Markteinführungszeit kostet.

Messungen sind eine Schlüsselvoraussetzung für den erfolgreichen Betrieb von KI-Netzwerken

Für den effektiven Betrieb eines KI-Clusters müssen GPUs ihre volle Kapazität nutzen können, um die Trainingszeit zu verkürzen und das Lernmodell optimal einzusetzen, um den Return on Investment zu maximieren. Daher ist es notwendig, die Leistung des KI-Clusters zu testen und zu bewerten (Abbildung 2). Diese Aufgabe ist jedoch nicht einfach, da es in der Systemarchitektur viele Einstellungen und Beziehungen zwischen GPUs und Netzwerkstrukturen gibt, die sich zur Lösung des Problems ergänzen müssen.

image005.jpg
Testplattform für KI-Rechenzentren und wie sie KI-Rechenzentrumscluster testet

Dies führt zu zahlreichen Herausforderungen bei der Messung von KI-Netzwerken:

- Schwierigkeiten bei der Reproduktion ganzer Produktionsnetzwerke im Labor aufgrund von Einschränkungen hinsichtlich Kosten, Ausrüstung, Mangel an qualifizierten Netzwerk-KI-Ingenieuren, Platz, Strom und Temperatur.

- Durch die Messung am Produktionssystem wird die verfügbare Verarbeitungskapazität des Produktionssystems selbst reduziert.

- Schwierigkeiten bei der genauen Reproduktion von Problemen aufgrund von Unterschieden in Umfang und Reichweite der Probleme.

- Die Komplexität der gemeinsamen Verbindung von GPUs.

Um diese Herausforderungen zu bewältigen, können Unternehmen eine Auswahl der empfohlenen Setups in einer Laborumgebung testen, um wichtige Kennzahlen wie die Job Completion Time (JCT) und die vom KI-Team erreichbare Bandbreite zu vergleichen und diese mit der Switching-Plattform- und Cache-Auslastung zu vergleichen. Dieses Benchmarking hilft, die richtige Balance zwischen GPU-/Verarbeitungslast und Netzwerkdesign/-aufbau zu finden. Sobald die Computerarchitekten und Netzwerkingenieure mit den Ergebnissen zufrieden sind, können sie diese Setups in die Produktion übernehmen und neue Ergebnisse messen.

Unternehmensforschungslabore, akademische Einrichtungen und Universitäten analysieren alle Aspekte des Aufbaus und Betriebs effektiver KI-Netzwerke, um die Herausforderungen der Arbeit in großen Netzwerken zu bewältigen, insbesondere angesichts der ständigen Weiterentwicklung bewährter Verfahren. Dieser kollaborative, wiederholbare Ansatz ist für Unternehmen die einzige Möglichkeit, wiederholbare Messungen durchzuführen und „Was-wäre-wenn“-Szenarien schnell zu testen, die die Grundlage für die Optimierung von Netzwerken für KI bilden.

(Quelle: Keysight Technologies)