OpenAI មិនបានបង្ហាញច្រើនអំពីរបៀបដែល ChatGPT-4 ត្រូវបានបណ្តុះបណ្តាលទេ។ ប៉ុន្តែគំរូភាសាធំៗ (LLMs) ជាធម្មតាត្រូវបានបណ្តុះបណ្តាលលើអត្ថបទដែលបន្លំពីអ៊ីនធឺណិត ដែលភាសាអង់គ្លេសគឺជាភាសារបារាំង។ ប្រហែល 93% នៃទិន្នន័យបណ្តុះបណ្តាលរបស់ ChatGPT-3 ជាភាសាអង់គ្លេស។

នៅក្នុង Common Crawl គ្រាន់តែជាសំណុំទិន្នន័យមួយដែលគំរូ AI ត្រូវបានបណ្តុះបណ្តាល ភាសាអង់គ្លេសបង្កើតបាន 47% នៃ corpus ជាមួយនឹងភាសាអឺរ៉ុបផ្សេងទៀតបង្កើតបាន 38% បន្ថែមទៀត។ ផ្ទុយទៅវិញ ចិន និងជប៉ុន រួមបញ្ចូលគ្នាមានត្រឹមតែ 9% ប៉ុណ្ណោះ។

រូបថតអេក្រង់ 2024 01 31 នៅ 151709.png
ទិន្នន័យភាគច្រើនដែលប្រើសម្រាប់ការបណ្តុះបណ្តាល LLM គឺជាភាសាអង់គ្លេស ឬភាសាអឺរ៉ុបផ្សេងទៀត។

នេះមិនមែនជាបញ្ហាដែលកំណត់ចំពោះ ChatGPT តែម្នាក់ឯងនោះទេ ដូចដែល Nathaniel Robinson អ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យ Johns Hopkins និងសហការីរបស់គាត់បានរកឃើញ។ LLMs ទាំងអស់ដំណើរការបានល្អជាងលើភាសា "ធនធានខ្ពស់" ដែលទិន្នន័យបណ្តុះបណ្តាលមានច្រើន ជាងភាសា "ធនធានទាប" ដែលវាខ្វះខាត។

នេះគឺជាបញ្ហាសម្រាប់អ្នកដែលសង្ឃឹមថានឹងនាំយក AI ទៅកាន់ប្រទេសក្រីក្រ ដើម្បីកែលម្អអ្វីៗគ្រប់យ៉ាងចាប់ពី ការអប់រំ រហូតដល់ការថែទាំសុខភាព។ ដូច្នេះ អ្នកស្រាវជ្រាវជុំវិញពិភពលោកកំពុងធ្វើការដើម្បីធ្វើឱ្យ AI កាន់តែមានពហុភាសា។

កាល​ពី​ខែ​កញ្ញា​កន្លង​ទៅ រដ្ឋាភិបាល ​ឥណ្ឌា​បាន​បើក​ដំណើរការ​ជជែក​កំសាន្ត​ដែល​ជួយ​កសិករ​បន្ត​ធ្វើ​បច្ចុប្បន្នភាព​ជាមួយ​នឹង​ព័ត៌មាន​ដែល​មាន​ប្រយោជន៍​ពី​រដ្ឋាភិបាល។

Shankar Maruwada នៃមូលនិធិ EkStep ដែលជាអង្គការមិនរកប្រាក់ចំណេញដែលបានជួយបង្កើត chatbot បាននិយាយថា bot ដំណើរការដោយការរួមបញ្ចូលគំរូភាសាពីរប្រភេទ ដែលអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ដាក់សំណួរជាភាសាកំណើតរបស់ពួកគេ។ សំណួរជាភាសាដើមទាំងនេះត្រូវបានបញ្ជូនទៅកម្មវិធីបកប្រែម៉ាស៊ីននៅឯកន្លែងស្រាវជ្រាវឥណ្ឌា ដែលបកប្រែវាជាភាសាអង់គ្លេស មុនពេលបញ្ជូនបន្តការឆ្លើយតបទៅ LLM ដែលដំណើរការការឆ្លើយតប។ ជាចុងក្រោយ ការឆ្លើយតបត្រូវបានបកប្រែត្រឡប់ទៅជាភាសាកំណើតរបស់អ្នកប្រើប្រាស់វិញ។

ដំណើរការនេះអាចដំណើរការបាន ប៉ុន្តែការបកប្រែសំណួរទៅជាភាសា "ពេញចិត្ត" របស់ LLM គឺជាដំណោះស្រាយដ៏ច្របូកច្របល់។ ភាសាគឺជាការឆ្លុះបញ្ចាំងពីវប្បធម៌ និង ទស្សនៈពិភពលោក ។ ក្រដាសឆ្នាំ 2022 ដោយ Rebecca Johnson អ្នកស្រាវជ្រាវនៅសកលវិទ្យាល័យ Sydney បានរកឃើញថា ChatGPT-3 ផលិតចម្លើយលើប្រធានបទដូចជា ការគ្រប់គ្រងកាំភ្លើង និងគោលនយោបាយជនភៀសខ្លួន ដែលអាចប្រៀបធៀបទៅនឹងតម្លៃរបស់អាមេរិក ដែលបានបង្ហាញនៅក្នុង World Values ​​Survey។

ជាលទ្ធផល អ្នកស្រាវជ្រាវជាច្រើនកំពុងព្យាយាមធ្វើឱ្យ LLMs ស្ទាត់ជំនាញក្នុងភាសាដែលមិនសូវប្រើ។ តាមបច្ចេកទេស វិធីសាស្រ្តមួយគឺដើម្បីកែប្រែសញ្ញាសម្ងាត់សម្រាប់ភាសា។ ការចាប់ផ្តើមអាជីវកម្មរបស់ឥណ្ឌាដែលមានឈ្មោះថា Sarvam AI បានសរសេរអក្សរសម្ងាត់ដែលធ្វើឱ្យប្រសើរឡើងសម្រាប់ភាសាហិណ្ឌូ ឬគំរូ OpenHathi - LLM ធ្វើឱ្យប្រសើរសម្រាប់ភាសា Devanagari (ឥណ្ឌា) ដែលអាចកាត់បន្ថយការចំណាយក្នុងការឆ្លើយសំណួរយ៉ាងច្រើន។

វិធីមួយទៀតគឺធ្វើឱ្យប្រសើរឡើងនូវសំណុំទិន្នន័យដែល LLM ត្រូវបានបណ្តុះបណ្តាល។ នៅក្នុងខែវិច្ឆិកា ក្រុមអ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យ Mohamed bin Zayed ក្នុងទីក្រុង Abu Dhabi បានចេញផ្សាយកំណែចុងក្រោយបំផុតនៃគំរូនិយាយភាសាអារ៉ាប់របស់ពួកគេដែលមានឈ្មោះថា "Jais" ។ វាមានមួយភាគប្រាំមួយនៃចំនួនប៉ារ៉ាម៉ែត្រនៃ ChatGPT-3 ប៉ុន្តែដំណើរការដូចគ្នានឹងភាសាអារ៉ាប់។

Timothy Baldwin ប្រធាននៃសាកលវិទ្យាល័យ Mohamed bin Zayed University បានកត់សម្គាល់ថា ទោះបីជាក្រុមរបស់គាត់បានធ្វើឌីជីថលជាច្រើននៃអត្ថបទអារ៉ាប់ក៏ដោយ អត្ថបទភាសាអង់គ្លេសមួយចំនួននៅតែត្រូវបានបញ្ចូលក្នុងគំរូនេះ។ គោល​គំនិត​ខ្លះ​គឺ​ដូចគ្នា​គ្រប់​ភាសា ហើយ​អាច​រៀន​បាន​គ្រប់​ភាសា។

វិធីសាស្រ្តទីបីគឺការកែសំរួលម៉ូដែលបន្ទាប់ពីពួកគេត្រូវបានបណ្តុះបណ្តាល។ ទាំង Jais និង OpenHathi មានគូសំណួរ-ចម្លើយដែលបង្កើតដោយមនុស្ស។ ដូចគ្នាដែរចំពោះ chatbots របស់លោកខាងលិច ដើម្បីការពារព័ត៌មានមិនពិត។

Ernie Bot ដែលជា LLM មកពីក្រុមហ៊ុន Baidu ដែលជាក្រុមហ៊ុនបច្ចេកវិទ្យាចិនធំមួយ ត្រូវបានកែសម្រួលដើម្បីកំណត់ការនិយាយដែលអាចប្រមាថដល់រដ្ឋាភិបាល។ ម៉ូដែលក៏អាចរៀនពីមតិកែលម្អរបស់មនុស្សផងដែរ ដោយអ្នកប្រើប្រាស់វាយតម្លៃចម្លើយរបស់ LLM ។ ប៉ុន្តែវាជាការលំបាកក្នុងការធ្វើសម្រាប់ភាសាជាច្រើននៅក្នុងតំបន់ដែលមិនសូវអភិវឌ្ឍ ដោយសារតម្រូវការជួលមនុស្សដែលមានលក្ខណៈសម្បត្តិគ្រប់គ្រាន់ដើម្បីរិះគន់ការឆ្លើយតបរបស់ម៉ាស៊ីន។

(នេះ​បើ​តាម​អ្នក​សេដ្ឋកិច្ច)

កងទ័ពអាមេរិកប្រើ AI ដើម្បីប៉ាន់ប្រមាណតម្លៃនៃសារធាតុរ៉ែសំខាន់ៗ កងទ័ពអាមេរិកគ្រោងនឹងបង្កើតកម្មវិធីកុំព្យូទ័រដែលមានសមត្ថភាពប៉ាន់ស្មានតម្លៃ និងព្យាករណ៍ការផ្គត់ផ្គង់នីកែល កូបែល និងសារធាតុរ៉ែសំខាន់ៗផ្សេងទៀត។