ภาพ001.jpg

GPU คือสมองของคอมพิวเตอร์ AI

พูดอย่างง่ายๆ ก็คือหน่วยประมวลผลกราฟิก (GPU) ทำหน้าที่เป็นสมองของคอมพิวเตอร์ AI

อย่างที่ทราบกันดีว่าหน่วยประมวลผลกลาง (CPU) เปรียบเสมือนสมองของคอมพิวเตอร์ ข้อดีของ GPU ก็คือเป็น CPU เฉพาะทางที่สามารถคำนวณที่ซับซ้อนได้ วิธีที่เร็วที่สุดในการทำเช่นนี้คือการใช้ GPU เป็นกลุ่มเพื่อแก้ปัญหา อย่างไรก็ตาม การฝึกโมเดล AI อาจใช้เวลาหลายสัปดาห์หรือหลายเดือน เมื่อสร้างเสร็จแล้ว จะถูกวางไว้ในระบบคอมพิวเตอร์ส่วนหน้า และผู้ใช้สามารถถามคำถามโมเดล AI ได้ ซึ่งเป็นกระบวนการที่เรียกว่าการอนุมาน

คอมพิวเตอร์ AI ที่มี GPU หลายตัว

สถาปัตยกรรมที่ดีที่สุดสำหรับการแก้ปัญหาด้าน AI คือการใช้คลัสเตอร์ GPU ในแร็ค โดยเชื่อมต่อกับสวิตช์ที่ด้านบนของแร็ค แร็ค GPU หลายแร็คสามารถเชื่อมต่อกันเป็นลำดับชั้นของเครือข่ายได้ เมื่อปัญหามีความซับซ้อนมากขึ้น ความต้องการ GPU ก็เพิ่มขึ้น และบางโปรเจ็กต์อาจจำเป็นต้องปรับใช้คลัสเตอร์ GPU หลายพันตัว

แต่ละคลัสเตอร์ AI เป็นเครือข่ายขนาดเล็ก

เมื่อสร้างคลัสเตอร์ AI จำเป็นต้องตั้งค่าเครือข่ายคอมพิวเตอร์ขนาดเล็กเพื่อเชื่อมต่อและอนุญาตให้ GPU ทำงานร่วมกันและแบ่งปันข้อมูลอย่างมีประสิทธิภาพ

ภาพ002.jpg
คลัสเตอร์ AI

รูปภาพด้านบนแสดงคลัสเตอร์ AI โดยวงกลมด้านล่างแสดงถึงเวิร์กโฟลว์ที่ทำงานบน GPU GPU เชื่อมต่อกับสวิตช์ด้านบนของแร็ค (ToR) สวิตช์ ToR ยังเชื่อมต่อกับสวิตช์แบ็คโบนของเครือข่ายที่แสดงเหนือไดอะแกรม ซึ่งแสดงให้เห็นถึงลำดับชั้นของเครือข่ายที่ชัดเจนซึ่งจำเป็นเมื่อต้องใช้ GPU หลายตัว

เครือข่ายคือคอขวดในการใช้งาน AI
เมื่อฤดูใบไม้ร่วงที่ผ่านมา ในการประชุมสุดยอดระดับโลกของ Open Computer Project (OCP) ซึ่งผู้แทนได้ทำงานร่วมกันเพื่อสร้างโครงสร้างพื้นฐาน AI รุ่นถัดไป ผู้แทน Loi Nguyen จาก Marvell Technology ได้ชี้ประเด็นสำคัญว่า "การทำงานเครือข่ายคือปัญหาคอขวดใหม่"

ในทางเทคนิค ความล่าช้าของแพ็กเก็ตที่สูงหรือการสูญหายของแพ็กเก็ตอันเนื่องมาจากความแออัดของเครือข่ายอาจทำให้แพ็กเก็ตถูกส่งซ้ำ ทำให้เวลาดำเนินการงานเสร็จสิ้น (JCT) เพิ่มขึ้นอย่างมาก ส่งผลให้ GPU จากองค์กรต่างๆ มูลค่าหลายล้านหรือหลายสิบล้านดอลลาร์ถูกสูญเปล่าเนื่องจากระบบ AI ที่ไม่มีประสิทธิภาพ ทำให้องค์กรต้องเสียทั้งรายได้และเวลาในการออกสู่ตลาด

การวัดผลถือเป็นเงื่อนไขสำคัญสำหรับการดำเนินงานเครือข่าย AI ให้ประสบความสำเร็จ

เพื่อใช้งานคลัสเตอร์ AI ได้อย่างมีประสิทธิภาพ GPU จะต้องสามารถใช้ศักยภาพทั้งหมดเพื่อลดระยะเวลาการฝึกอบรมและนำแบบจำลองการเรียนรู้มาใช้เพื่อเพิ่มผลตอบแทนจากการลงทุนให้สูงสุด ดังนั้น จึงจำเป็นต้องทดสอบและประเมินประสิทธิภาพของคลัสเตอร์ AI (รูปที่ 2) อย่างไรก็ตาม งานนี้ไม่ใช่เรื่องง่าย เนื่องจากในแง่ของสถาปัตยกรรมระบบ มีการตั้งค่าและความสัมพันธ์มากมายระหว่าง GPU และโครงสร้างเครือข่ายที่ต้องเสริมซึ่งกันและกันเพื่อแก้ไขปัญหา

ภาพ005.jpg
แพลตฟอร์มทดสอบศูนย์ข้อมูล AI และวิธีการทดสอบคลัสเตอร์ศูนย์ข้อมูล AI

สิ่งนี้สร้างความท้าทายมากมายในการวัดผลเครือข่าย AI:

- ความยากลำบากในการสร้างเครือข่ายการผลิตทั้งหมดในห้องปฏิบัติการเนื่องจากข้อจำกัดด้านต้นทุน อุปกรณ์ การขาดแคลนวิศวกร AI เครือข่ายที่มีทักษะ พื้นที่ พลังงาน และอุณหภูมิ

- การวัดผลบนระบบการผลิตทำให้ความสามารถในการประมวลผลที่มีอยู่ของระบบการผลิตนั้นลดลง

- มีความยากลำบากในการจำลองปัญหาได้อย่างแม่นยำเนื่องจากความแตกต่างในด้านขนาดและขอบเขตของปัญหา

- ความซับซ้อนในการเชื่อมต่อ GPU ร่วมกัน

เพื่อรับมือกับความท้าทายเหล่านี้ องค์กรต่างๆ สามารถทดสอบชุดย่อยของการตั้งค่าที่แนะนำในสภาพแวดล้อมแล็บเพื่อเปรียบเทียบค่าเมตริกสำคัญ เช่น เวลาการทำงานเสร็จสิ้น (JCT) แบนด์วิดท์ที่ทีม AI สามารถทำได้ และเปรียบเทียบกับการใช้แพลตฟอร์มการสลับและการใช้แคช การเปรียบเทียบนี้ช่วยค้นหาสมดุลที่เหมาะสมระหว่างภาระงานของ GPU/การประมวลผลและการออกแบบ/การตั้งค่าเครือข่าย เมื่อพอใจกับผลลัพธ์แล้ว สถาปนิกคอมพิวเตอร์และวิศวกรเครือข่ายสามารถนำการตั้งค่าเหล่านี้ไปใช้ในการผลิตและวัดผลลัพธ์ใหม่

ห้องปฏิบัติการวิจัยขององค์กร สถาบันการศึกษา และมหาวิทยาลัยต่างทำงานเพื่อวิเคราะห์ทุกแง่มุมของการสร้างและการดำเนินการเครือข่าย AI ที่มีประสิทธิภาพ เพื่อรับมือกับความท้าทายในการทำงานบนเครือข่ายขนาดใหญ่ โดยเฉพาะอย่างยิ่งเมื่อแนวทางปฏิบัติที่ดีที่สุดยังคงพัฒนาต่อไป แนวทางการทำงานร่วมกันและทำซ้ำได้นี้เป็นวิธีเดียวที่บริษัทต่างๆ จะทำการวัดผลซ้ำได้และทดสอบสถานการณ์ "จะเกิดอะไรขึ้นถ้า" อย่างรวดเร็ว ซึ่งเป็นรากฐานสำหรับการเพิ่มประสิทธิภาพเครือข่ายสำหรับ AI

(ที่มา: Keysight Technologies)