Графический процессор — мозг компьютера с искусственным интеллектом
Проще говоря, графический процессор (GPU) действует как мозг компьютера с искусственным интеллектом.
Как вы знаете, центральный процессор (ЦП) — это мозг компьютера. Преимущество ГП в том, что это специализированный ЦП, который может выполнять сложные вычисления. Самый быстрый способ сделать это — заставить группы ГП решать задачу. Однако обучение модели ИИ все еще может занять недели или даже месяцы. После того, как она создана, она помещается в систему фронтальных вычислений, и пользователи могут задавать вопросы модели ИИ, процесс называется выводом.
Компьютер с искусственным интеллектом, содержащий несколько графических процессоров
Лучшая архитектура для решения задач ИИ — использовать кластер графических процессоров в стойке, подключенный к коммутатору наверху стойки. Несколько стоек графических процессоров могут быть соединены в иерархию сетей. По мере усложнения задачи требования к графическим процессорам возрастают, и в некоторых проектах может потребоваться развертывание кластеров из тысяч графических процессоров.
Каждый кластер ИИ представляет собой небольшую сеть
При создании кластера ИИ необходимо настроить небольшую компьютерную сеть для подключения и обеспечения совместной работы графических процессоров и эффективного обмена данными.
На рисунке выше показан кластер ИИ, где круги внизу представляют рабочие процессы, запущенные на графических процессорах. Графические процессоры подключаются к коммутаторам верхней части стойки (ToR). Коммутаторы ToR также подключаются к коммутаторам сетевой магистрали, показанным над диаграммой, демонстрируя четкую сетевую иерархию, необходимую при использовании нескольких графических процессоров.
Сети являются узким местом в развертывании ИИ
Осенью прошлого года на глобальном саммите Open Computer Project (OCP), где делегаты работали вместе над созданием инфраструктуры ИИ следующего поколения, делегат Лой Нгуен из Marvell Technology высказал ключевую мысль: «Сети — это новое узкое место».
Технически, высокая задержка пакетов или потеря пакетов из-за перегрузки сети может привести к повторной отправке пакетов, что значительно увеличит время выполнения задания (JCT). В результате миллионы или десятки миллионов долларов, потраченных на графические процессоры предприятий, тратятся впустую из-за неэффективных систем ИИ, что обходится предприятию как в доход, так и во время выхода на рынок.
Измерение — ключевое условие успешной работы сетей ИИ
Для эффективной работы кластера ИИ графические процессоры должны иметь возможность использовать всю свою мощность, чтобы сократить время обучения и использовать модель обучения для максимизации окупаемости инвестиций. Поэтому необходимо протестировать и оценить производительность кластера ИИ (рисунок 2). Однако эта задача не из легких, поскольку с точки зрения архитектуры системы существует множество настроек и взаимосвязей между графическими процессорами и сетевыми структурами, которые должны дополнять друг друга для решения проблемы.
Это создает множество проблем при измерении сетей ИИ:
- Сложность воспроизведения целых производственных сетей в лабораторных условиях из-за ограничений по стоимости, оборудованию, нехватке квалифицированных инженеров по сетевому ИИ, пространству, мощности и температуре.
- Измерение в производственной системе снижает доступную мощность обработки самой производственной системы.
- Трудность точного воспроизведения проблем из-за различий в масштабе и сфере действия проблем.
- Сложность коллективного соединения графических процессоров.
Чтобы решить эти проблемы, предприятия могут протестировать подмножество рекомендуемых настроек в лабораторной среде для сравнения ключевых показателей, таких как время выполнения задания (JCT), пропускная способность, которую может достичь команда ИИ, и сравнить ее с использованием коммутационной платформы и использованием кэша. Этот бенчмаркинг помогает найти правильный баланс между рабочей нагрузкой GPU/обработки и проектированием/настройкой сети. Удовлетворившись результатами, компьютерные архитекторы и сетевые инженеры могут запустить эти настройки в производство и измерить новые результаты.
Корпоративные исследовательские лаборатории, академические институты и университеты работают над анализом каждого аспекта создания и эксплуатации эффективных сетей ИИ для решения проблем работы в крупных сетях, особенно по мере того, как продолжают развиваться передовые практики. Этот совместный, повторяемый подход является единственным способом для компаний выполнять повторяемые измерения и быстро тестировать сценарии «что если», которые являются основой для оптимизации сетей для ИИ.
(Источник: Keysight Technologies)
Источник: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html
Комментарий (0)