និស្សិតប្រុសពីរនាក់បោះពុម្ពផ្សាយការស្រាវជ្រាវនៅឯសន្និសីទ AI ឈានមុខគេរបស់ពិភពលោក

ដោយប្រើវិធីសាស្រ្តបណ្តុះបណ្តាលគូប្រជែងដើម្បីអនុញ្ញាតឱ្យ AI បង្កើតទិន្នន័យថ្មី ការស្រាវជ្រាវរបស់និស្សិតពីរនាក់មកពីសាកលវិទ្យាល័យបច្ចេកវិទ្យាទីក្រុងហូជីមិញត្រូវបានបោះពុម្ពនៅ AAAI ដែលជាសន្និសីទ AI ឈានមុខគេ របស់ពិភពលោក ។

ការស្រាវជ្រាវលើគំរូពហុភាសាដើម្បីបណ្តុះបណ្តាល AI ដើម្បីបង្កើតសទិសន័យដោយ Pham Khanh Trinh និង Le Minh Khoi អាយុ 23 ឆ្នាំត្រូវបានបោះពុម្ពផ្សាយនៅក្នុងឯកសារនៃសន្និសីទ AAAI-24 ស្តីពីបញ្ញាសិប្បនិមិត្តដែលបានធ្វើឡើងនៅចុងខែកុម្ភៈនៅទីក្រុង Vancouver ប្រទេសកាណាដា។

សាស្ត្រាចារ្យរង បណ្ឌិត Quan Thanh Tho ព្រឹទ្ធបុរសរងនៃមហាវិទ្យាល័យ វិទ្យាសាស្ត្រកុំព្យូទ័រ និងវិស្វកម្ម នៃសាកលវិទ្យាល័យបច្ចេកវិទ្យាទីក្រុងហូជីមិញ បានវាយតម្លៃថា នេះជាលទ្ធផលគួរឲ្យសរសើរ។ លោក ថូ បាននិយាយថា AAAI ត្រូវបានអ្នកស្រាវជ្រាវ និងអ្នកជំនាញចាត់ទុកថាមានគុណភាពកំពូលនៅក្នុងសន្និសីទវិទ្យាសាស្ត្រក្នុងវិស័យវិទ្យាសាស្ត្រកុំព្យូទ័រ និងបញ្ញាសិប្បនិម្មិត ជាមួយនឹងអត្រាទទួលយកអត្ថបទទាបបំផុតនៅឆ្នាំនេះ 23.75% ។

Minh Khoi និង Khanh Trinh (កណ្តាល) កំឡុងពេលបញ្ចប់បរិញ្ញាបត្រការពារនិក្ខេបបទឆ្នាំ ២០២៣។ រូបថត៖ ផ្តល់ដោយតួអង្គ — Minh Khoi និង Khanh Trinh (កណ្តាល) កំឡុងពេលបញ្ចប់បរិញ្ញាបត្រការពារនិក្ខេបបទឆ្នាំ ២០២៣។ រូបថត៖ *ផ្តល់ដោយតួអង្គ*

ដោយចែករំលែកចំណង់ចំណូលចិត្តចំពោះការសិក្សាជ្រៅជ្រះ និងដំណើរការភាសាធម្មជាតិ Trinh និង Khoi បានជ្រើសរើសស្រាវជ្រាវលើគំរូភាសាធំៗ (LLMs)។ អ្នកទាំងពីរចង់ស្វែងរកដែនកំណត់នៃ LLMs និងកែលម្អវា។

លោក Khanh Trinh បាននិយាយថា Chat GPTs ឬ LLMs ចាំបាច់ត្រូវទទួលការបណ្តុះបណ្តាលលើទិន្នន័យអត្ថបទយ៉ាងច្រើន ដើម្បីបង្កើតការឆ្លើយតបត្រឹមត្រូវ និងចម្រុះសម្រាប់អ្នកប្រើប្រាស់។ ក្មេងប្រុសទាំងពីរនាក់បានដឹងថា ជាមួយនឹងភាសាដែលមិនសូវពេញនិយមដូចជា ហិណ្ឌូ កាហ្សាក់ស្ថាន ឬឥណ្ឌូនេស៊ី ការជជែក GPTs និង LLM តែងតែផ្តល់លទ្ធផលដែលមិននឹកស្មានដល់ ពីព្រោះពួកគេមិនបានសិក្សាភាសាទាំងនេះច្រើន ឬភាសាទាំងនេះមិនមានទិន្នន័យគ្រប់គ្រាន់សម្រាប់ពួកគេរៀន។

សិស្សប្រុសទាំងពីរនាក់បានសួរថា "ហេតុអ្វីបានជាយើងមិនបង្កើតទិន្នន័យអត្ថបទបន្ថែមពី "ធនធានតិចតួច" នៃភាសាទាំងនោះ ដើម្បីបណ្តុះបណ្តាល AI បន្ថែមទៀត? ពីទីនោះ គំរូ LAMPAT (ការសម្របខ្លួនកម្រិតទាបសម្រាប់ការនិយាយច្រើនភាសាដោយប្រើការបណ្តុះបណ្តាលគូបដិបក្ខ) - ការបកស្រាយពហុភាសាដោយប្រើវិធីសាស្ត្របង្វឹកសត្រូវដែលស្រាវជ្រាវដោយ Trinh និង Khoi បានកើត។

LAMPAT អាចបង្កើតសទិសន័យពីប្រយោគបញ្ចូលដែលបានផ្តល់ឱ្យ ដើម្បីបង្កើតទិន្នន័យអត្ថបទបន្ថែម។ អ្នកពន្យល់ "ការបណ្តុះបណ្តាលសត្រូវ" គឺជាវិធីសាស្រ្តថ្មីសម្រាប់បណ្តុះបណ្តាលគំរូភាសាធំ។ ដោយទទួលបានប្រយោគបញ្ចូល ជាមួយនឹងវិធីសាស្ត្របណ្តុះបណ្តាលបែបប្រពៃណី កម្មវិធីនឹងបង្កើតប្រយោគលទ្ធផល។ ប៉ុន្តែជាមួយនឹងការបណ្តុះបណ្តាលគូបដិបក្ខ កម្មវិធីអាចធ្វើអត្ថាធិប្បាយលើ និងកែសម្រួលប្រយោគលទ្ធផល "សត្រូវ" ដើម្បីបង្កើតប្រយោគបន្ថែមទៀត។

លក្ខណៈពហុភាសានៃ LAMPAT ស្ថិតនៅក្នុងការពិតដែលថាគំរូនេះរួមបញ្ចូល 60 ភាសាក្នុងពេលតែមួយ។ ដោយផ្អែកលើសំណុំទិន្នន័យដែលប្រមូលបាន ក្រុមការងារនៅតែបន្តបណ្តុះបណ្តាល LAMPAT ដើម្បីបង្កើតសទិសន័យ។ ចំនួននៃទិន្នន័យអត្ថបទដែលបានបង្កើតពី LAMPAT នឹងបន្តត្រូវបានប្រើដើម្បីបណ្តុះបណ្តាល LLMs ដូច្នេះគំរូទាំងនេះអាចស្វែងយល់ពីវិធីផ្សេងគ្នាជាច្រើននៃការបញ្ចេញព័ត៌មានសម្រាប់មាតិកាដូចគ្នា ដោយហេតុនេះផ្តល់នូវការឆ្លើយតបចម្រុះជាមួយនឹងប្រូបាប៊ីលីតេខ្ពស់នៃការត្រឹមត្រូវ។ ជាមួយនឹងលក្ខណៈពិសេសនេះ អ្នកតំណាងក្រុមជឿជាក់ថា LAMPAT អាចត្រូវបានដាក់បញ្ចូលទៅក្នុងកម្មវិធីដូចជា ChatGPT ដើម្បីបន្ថែមភាពល្អឥតខ្ចោះសម្រាប់ម៉ូដែលនេះ។

លើសពីនេះទៀត ការខ្វះខាតទិន្នន័យសម្រាប់ Chat GPT ឬ LLMs បង្ខំឱ្យក្រុមហ៊ុនមួយចំនួនស្វែងរកប្រភពខាងក្រៅជាច្រើនដូចជា សៀវភៅ កាសែត ប្លក់ជាដើម ដោយមិនយកចិត្តទុកដាក់លើបញ្ហារក្សាសិទ្ធិ។ ការបង្កើតពាក្យមានន័យដូចគ្នាក៏ជាមធ្យោបាយមួយក្នុងការកំណត់ការលួចចម្លង និងការរំលោភលើសិទ្ធិអ្នកនិពន្ធ នេះបើយោងតាម Khanh Trinh។

Nam Sinh បានផ្តល់ឧទាហរណ៍នៃកម្មវិធីដូចជា Chat GPT នៅពេលដែលអ្នកប្រើប្រាស់ស្នើសុំសេចក្តីសង្ខេបនៃអត្ថបទ A ដែលមានស្រាប់ កម្មវិធីនឹងបង្កើតអត្ថបទសង្ខេប B។ ប្រសិនបើវិធីសាស្រ្តស្រាវជ្រាវរបស់ក្រុមត្រូវបានដាក់បញ្ចូល នៅពេលទទួលបានអត្ថបទ A នោះកម្មវិធីនឹងបង្កើតអត្ថបទជាច្រើនដែលមានខ្លឹមសារដូចគ្នា A1, A2, A3 ដោយផ្អែកលើយន្តការនៃការបង្កើតសទិសន័យ ដែលវានឹងផ្តល់លទ្ធផលជាច្រើនសម្រាប់អ្នកប្រើប្រាស់។

នៅដំណាក់កាលដំបូងនៃការស្រាវជ្រាវ ក្រុមការងារមានការលំបាកក្នុងការរៀបចំទិន្នន័យវាយតម្លៃសម្រាប់ 60 ភាសា។ ដោយសារកង្វះលទ្ធភាពទទួលបានទិន្នន័យច្រើនគ្រប់គ្រាន់ ក្រុមការងារបានចងក្រងសំណុំទិន្នន័យចម្រុះ និងពេញលេញនៃ 13 ភាសា ដើម្បីវាយតម្លៃជាលក្ខណៈគំរូ រួមមានៈ វៀតណាម អង់គ្លេស បារាំង អាល្លឺម៉ង់ រុស្ស៊ី ជប៉ុន ចិន អេស្បាញ ហុងគ្រី ព័រទុយហ្គាល់ ស៊ុយអែត ហ្វាំងឡង់ ឆេក។ នេះក៏ជាសំណុំទិន្នន័យដែលអាចទុកចិត្តបានសម្រាប់ជំហានវាយតម្លៃមនុស្សចុងក្រោយ។

Minh Khoi (ឆ្វេង) និង Khanh Trinh (ស្តាំ) បានថតរូបអនុស្សាវរីយ៍ជាមួយលោកគ្រូ Quan Thanh Tho នៅថ្ងៃបញ្ចប់ការសិក្សា ខែវិច្ឆិកា ឆ្នាំ 2023។ រូបថត៖ ផ្តល់ដោយតួអង្គ — Minh Khoi (ឆ្វេង) និង Khanh Trinh (ស្តាំ) បានថតរូបអនុស្សាវរីយ៍ជាមួយលោកគ្រូ Quan Thanh Tho នៅថ្ងៃបញ្ចប់ការសិក្សា ខែវិច្ឆិកា ឆ្នាំ 2023។ រូបថត៖ *ផ្តល់ដោយតួអង្គ*

សម្រាប់ភាសាអង់គ្លេស វៀតណាម អាល្លឺម៉ង់ បារាំង និងជប៉ុននីមួយៗ ក្រុមការងារបានដកស្រង់ប្រយោគចំនួន 200 គូដោយចៃដន្យ (មួយគូមានប្រយោគលទ្ធផល និងស្លាកត្រឹមត្រូវ) សម្រាប់ការវាយតម្លៃ។ សម្រាប់ភាសានីមួយៗខាងលើ ក្រុមការងារបានស្នើឱ្យអ្នកជំនាញភាសាចំនួន 5 ផ្តល់ពិន្ទុដោយឯករាជ្យ ដោយផ្អែកលើលក្ខណៈវិនិច្ឆ័យចំនួនបី៖ ការរក្សាពាក្យសំដី; ការជ្រើសរើសពាក្យ និងភាពស្រដៀងគ្នា lexical និងភាពស្ទាត់ជំនាញ និងភាពស៊ីសង្វាក់គ្នានៃប្រយោគលទ្ធផល។ មាត្រដ្ឋានត្រូវបានគណនាពីលេខ 1 ដល់លេខ 5។ ជាលទ្ធផល ពិន្ទុវាយតម្លៃជាមធ្យមពីអ្នកជំនាញភាសាក្នុង 5 ភាសាទាំងនេះមានចាប់ពី 4.2 ដល់ 4.6/5 ពិន្ទុ។

ឧទាហរណ៍ផ្តល់ឱ្យប្រយោគវៀតណាមមួយគូដែលមានពិន្ទុ 4.4/5 ដែលក្នុងនោះប្រយោគបញ្ចូលគឺ: "គាត់បានពន្យល់បញ្ហាដោយលម្អិត" ហើយប្រយោគលទ្ធផលគឺ: "គាត់បានពន្យល់បញ្ហាដោយលម្អិត" ។

ប៉ុន្តែក៏មានប្រយោគមួយគូដែលមានគុណភាពអន់ និងកំហុសក្នុងន័យធៀបផងដែរ ដូចជាប្រយោគមួយគូ "We eat while the soup is hot - We eat the soup while we are hot" ដែលពិន្ទុត្រឹមតែ 2/5 ប៉ុណ្ណោះ។

លោក Khanh Trinh បាននិយាយថា វាត្រូវចំណាយពេល ៨ ខែ ដើម្បីស្រាវជ្រាវ និងបញ្ចប់គម្រោងនេះ។ នេះក៏ជាប្រធានបទនៃនិក្ខេបបទបញ្ចប់ការសិក្សារបស់ Trinh និង Khoi ផងដែរ។ និក្ខេបបទនេះបានជាប់ចំណាត់ថ្នាក់ទី 1 នៅក្នុងក្រុមប្រឹក្សាវិទ្យាសាស្ត្រកុំព្យូទ័រ 2 ជាមួយនឹង 9.72/10 ពិន្ទុ។

យោងតាមលោក Quan Thanh Tho ទោះបីជា LAMPAT បានបង្ហាញពីជំនាញរបស់ខ្លួនក្នុងការបង្កើតឃ្លាមានន័យដូចមនុស្សនៅទូទាំងច្រើនភាសាក៏ដោយ ក៏វានៅតែត្រូវការការកែលម្អដើម្បីគ្រប់គ្រងពាក្យសំដី ចម្រៀងប្រជាប្រិយ និងសុភាសិតជាភាសាផ្សេងៗ។

លើសពីនេះ សំណុំទិន្នន័យវាយតម្លៃរបស់ក្រុមមានត្រឹមតែ 13 ភាសាប៉ុណ្ណោះ ដែលនៅតែបន្សល់ទុកជាច្រើន ជាពិសេសភាសាជនជាតិភាគតិច។ ដូច្នេះ ក្រុមការងារចាំបាច់ត្រូវធ្វើការស្រាវជ្រាវ ដើម្បីកែលម្អ និងពង្រីកសមត្ថភាពនៃគំរូការបកស្រាយពហុភាសានាពេលបច្ចុប្បន្ន។ ពីទីនេះ យើងអាចដករបាំងភាសារវាងប្រទេស និងជនជាតិ។

នៅចុងឆ្នាំ 2023 លោក Trinh និង Khoi បានបញ្ចប់ថ្នាក់បរិញ្ញាបត្រដោយកិត្តិយស និងកិត្តិយសផ្នែកវិទ្យាសាស្ត្រកុំព្យូទ័រ ជាមួយនឹងពិន្ទុមធ្យម (GPA) នៃ 3.7 និង 3.9/4 រៀងគ្នា។ អ្នកទាំងពីរមានគម្រោងទៅសិក្សានៅបរទេសសម្រាប់ថ្នាក់អនុបណ្ឌិត និងបន្តការស្រាវជ្រាវផ្នែកបញ្ញាសិប្បនិមិត្ត និងការរៀនម៉ាស៊ីន។

លោក Trinh បានចែករំលែកថា "យើងបន្តស្រាវជ្រាវប្រធានបទនេះ ដោយមានគោលដៅអនុវត្ត LAMPAT បន្ថែមទៀតចំពោះគម្រោងវិទ្យាសាស្ត្រនាពេលខាងមុខ បង្កើតផលិតផលពហុភាសាដែលអាចទុកចិត្តបានសម្រាប់អ្នកប្រើប្រាស់"។

ឡេង ង្វៀន

ប្រភពតំណ