រូបភាព 001.jpg

GPU គឺជាខួរក្បាលរបស់កុំព្យូទ័រ AI

និយាយឱ្យសាមញ្ញ អង្គភាពដំណើរការក្រាហ្វិក (GPU) ដើរតួជាខួរក្បាលរបស់កុំព្យូទ័រ AI ។

ដូចដែលអ្នកបានដឹងហើយថា អង្គភាពដំណើរការកណ្តាល (CPU) គឺជាខួរក្បាលរបស់កុំព្យូទ័រ។ អត្ថប្រយោជន៍នៃ GPU គឺថាវាជា CPU ឯកទេសដែលអាចធ្វើការគណនាស្មុគស្មាញ។ មធ្យោបាយលឿនបំផុតដើម្បីធ្វើវាគឺដើម្បីឱ្យក្រុម GPUs ដោះស្រាយបញ្ហា។ ទោះជាយ៉ាងណាក៏ដោយ ការបណ្តុះបណ្តាលគំរូ AI នៅតែអាចចំណាយពេលជាច្រើនសប្តាហ៍ ឬរាប់ខែ។ នៅពេលដែលវាត្រូវបានបង្កើតឡើង វាត្រូវបានដាក់ក្នុងប្រព័ន្ធកុំព្យូទ័រខាងមុខ ហើយអ្នកប្រើប្រាស់អាចសួរសំណួរគំរូ AI ដែលជាដំណើរការហៅថាការសន្និដ្ឋាន។

កុំព្យូទ័រ AI ដែលមាន GPU ច្រើន។

ស្ថាបត្យកម្មដ៏ល្អបំផុតសម្រាប់ការដោះស្រាយបញ្ហា AI គឺត្រូវប្រើចង្កោម GPUs នៅក្នុង rack ភ្ជាប់ទៅកុងតាក់នៅផ្នែកខាងលើនៃ rack ។ រ៉ាកែត GPU ច្រើនអាចត្រូវបានតភ្ជាប់តាមឋានានុក្រមនៃបណ្តាញ។ នៅពេលដែលបញ្ហាកាន់តែស្មុគស្មាញ តម្រូវការ GPU កើនឡើង ហើយគម្រោងមួយចំនួនប្រហែលជាត្រូវដាក់ពង្រាយក្រុម GPU រាប់ពាន់។

ចង្កោម AI នីមួយៗគឺជាបណ្តាញតូចមួយ

នៅពេលបង្កើត AI cluster វាចាំបាច់ត្រូវរៀបចំបណ្តាញកុំព្យូទ័រតូចមួយដើម្បីភ្ជាប់ និងអនុញ្ញាតឱ្យ GPUs ធ្វើការជាមួយគ្នា និងចែករំលែកទិន្នន័យប្រកបដោយប្រសិទ្ធភាព។

រូបភាព 002.jpg
ចង្កោម AI

រូបខាងលើបង្ហាញពីចង្កោម AI ដែលរង្វង់នៅខាងក្រោមតំណាងឱ្យលំហូរការងារដែលដំណើរការលើ GPUs ។ GPUs ភ្ជាប់ទៅកំពូលនៃកុងតាក់ rack (ToR) ។ កុងតាក់ ToR ក៏ភ្ជាប់ទៅកុងតាក់ឆ្អឹងខ្នងបណ្តាញដែលបានបង្ហាញខាងលើដ្យាក្រាម ដោយបង្ហាញពីឋានានុក្រមបណ្តាញច្បាស់លាស់ដែលត្រូវការនៅពេលដែល GPUs ច្រើនជាប់ពាក់ព័ន្ធ។

បណ្តាញគឺជាឧបសគ្គក្នុងការដាក់ពង្រាយ AI
កាលពីរដូវស្លឹកឈើជ្រុះឆ្នាំមុន នៅក្នុងកិច្ចប្រជុំកំពូលសកល Open Computer Project (OCP) ដែលគណៈប្រតិភូបានធ្វើការរួមគ្នាដើម្បីកសាងហេដ្ឋារចនាសម្ព័ន្ធ AI ជំនាន់ក្រោយ ប្រតិភូ Loi Nguyen នៃ Marvell Technology បានបង្កើតចំណុចសំខាន់មួយថា “បណ្តាញគឺជាឧបសគ្គថ្មី”។

តាមបច្ចេកទេស ភាពយឺតយ៉ាវនៃកញ្ចប់ព័ត៌មានខ្ពស់ ឬការបាត់បង់កញ្ចប់ព័ត៌មានដោយសារតែការកកស្ទះបណ្តាញអាចបណ្តាលឱ្យកញ្ចប់ព័ត៌មានត្រូវបានផ្ញើឡើងវិញ ដែលបង្កើនពេលវេលាបំពេញការងារ (JCT) យ៉ាងសំខាន់។ ជាលទ្ធផល GPUs ដែលមានតម្លៃរាប់លាន ឬរាប់សិបលានដុល្លារពីសហគ្រាសត្រូវខ្ជះខ្ជាយដោយសារតែប្រព័ន្ធ AI ដែលមិនមានប្រសិទ្ធភាព ដែលធ្វើឲ្យសហគ្រាសខាតបង់ទាំងប្រាក់ចំណូល និងពេលវេលាសម្រាប់ទីផ្សារ។

ការវាស់វែងគឺជាលក្ខខណ្ឌសំខាន់សម្រាប់ប្រតិបត្តិការជោគជ័យនៃបណ្តាញ AI

ដើម្បីដំណើរការចង្កោម AI ប្រកបដោយប្រសិទ្ធភាព GPUs ចាំបាច់ត្រូវតែអាចប្រើប្រាស់សមត្ថភាពពេញលេញរបស់ពួកគេ ដើម្បីកាត់បន្ថយរយៈពេលបណ្តុះបណ្តាល និងដាក់គំរូនៃការរៀនសូត្រដើម្បីប្រើប្រាស់ដើម្បីបង្កើនផលត្រឡប់មកវិញលើការវិនិយោគ។ ដូច្នេះ ចាំបាច់ត្រូវធ្វើការសាកល្បង និងវាយតម្លៃដំណើរការនៃចង្កោម AI (រូបភាពទី 2)។ ទោះជាយ៉ាងណាក៏ដោយ កិច្ចការនេះមិនងាយស្រួលទេ ព្រោះបើនិយាយពីស្ថាបត្យកម្មប្រព័ន្ធ មានការកំណត់ និងទំនាក់ទំនងជាច្រើនរវាង GPU និងរចនាសម្ព័ន្ធបណ្តាញ ដែលត្រូវការបំពេញគ្នាទៅវិញទៅមកដើម្បីដោះស្រាយបញ្ហា។

រូបភាព 005.jpg
វេទិកាសាកល្បងមជ្ឈមណ្ឌលទិន្នន័យ AI និងរបៀបដែលវាសាកល្បងចង្កោមមជ្ឈមណ្ឌលទិន្នន័យ AI

វាបង្កើតបញ្ហាប្រឈមជាច្រើនក្នុងការវាស់វែងបណ្តាញ AI៖

- ភាពលំបាកក្នុងការផលិតឡើងវិញនូវបណ្តាញផលិតកម្មទាំងមូលនៅក្នុងមន្ទីរពិសោធន៍ ដោយសារការកំណត់តម្លៃ បរិក្ខារ កង្វះខាតវិស្វករ AI បណ្តាញជំនាញ លំហ ថាមពល និងសីតុណ្ហភាព។

- ការវាស់វែងលើប្រព័ន្ធផលិតកម្មកាត់បន្ថយសមត្ថភាពដំណើរការដែលមាននៃប្រព័ន្ធផលិតកម្មខ្លួនឯង។

- ភាពលំបាកក្នុងការផលិតឡើងវិញនូវបញ្ហាដោយភាពខុសប្លែកគ្នានៃមាត្រដ្ឋាន និងវិសាលភាពនៃបញ្ហា។

- ភាពស្មុគស្មាញនៃរបៀបដែល GPUs ត្រូវបានភ្ជាប់ជារួម។

ដើម្បីដោះស្រាយបញ្ហាប្រឈមទាំងនេះ សហគ្រាសអាចសាកល្បងសំណុំរងនៃការដំឡើងដែលបានណែនាំនៅក្នុងបរិយាកាសមន្ទីរពិសោធន៍ ដើម្បីកំណត់សូចនាករសំខាន់ៗដូចជា ពេលវេលាបញ្ចប់ការងារ (JCT) កម្រិតបញ្ជូនដែលក្រុម AI អាចសម្រេចបាន ហើយប្រៀបធៀបវាទៅនឹងការផ្លាស់ប្តូរការប្រើប្រាស់វេទិកា និងការប្រើប្រាស់ឃ្លាំងសម្ងាត់។ ការវាយតម្លៃគោលនេះជួយស្វែងរកតុល្យភាពត្រឹមត្រូវរវាង GPU/ដំណើរការបន្ទុក និងការរចនា/ការដំឡើងបណ្តាញ។ នៅពេលដែលពេញចិត្តនឹងលទ្ធផលនេះ ស្ថាបត្យករកុំព្យូទ័រ និងវិស្វករបណ្តាញអាចយកការដំឡើងទាំងនេះទៅក្នុងការផលិត និងវាស់វែងលទ្ធផលថ្មី។

មន្ទីរពិសោធន៍ស្រាវជ្រាវសាជីវកម្ម ស្ថាប័នសិក្សា និងសាកលវិទ្យាល័យកំពុងធ្វើការដើម្បីវិភាគគ្រប់ទិដ្ឋភាពនៃការកសាង និងប្រតិបត្តិការបណ្តាញ AI ប្រកបដោយប្រសិទ្ធភាព ដើម្បីដោះស្រាយបញ្ហាប្រឈមនៃការងារលើបណ្តាញធំៗ ជាពិសេសនៅពេលដែលការអនុវត្តល្អបំផុតនៅតែបន្តវិវត្ត។ វិធីសាស្រ្តដែលអាចធ្វើឡើងវិញបានដែលសហការគ្នានេះគឺជាមធ្យោបាយតែមួយគត់សម្រាប់ក្រុមហ៊ុនដើម្បីធ្វើការវាស់វែងដែលអាចកើតឡើងដដែលៗ និងសាកល្បងយ៉ាងរហ័សនូវសេណារីយ៉ូ "what-if" ដែលជាមូលដ្ឋានគ្រឹះសម្រាប់បង្កើនប្រសិទ្ធភាពបណ្តាញសម្រាប់ AI ។

(ប្រភព៖ Keysight Technologies)