ហេតុអ្វីបានជាបញ្ញាសិប្បនិមិត្តត្រូវរៀនភាសាថ្មី?

OpenAI មិនបានបង្ហាញច្រើនអំពីរបៀបដែល ChatGPT-4 ត្រូវបានបណ្តុះបណ្តាលទេ។ ប៉ុន្តែគំរូភាសាធំៗ (LLMs) ជាធម្មតាត្រូវបានបណ្តុះបណ្តាលលើអត្ថបទដែលបន្លំពីអ៊ីនធឺណិត ដែលភាសាអង់គ្លេសគឺជាភាសារបារាំង។ ប្រហែល 93% នៃទិន្នន័យបណ្តុះបណ្តាលរបស់ ChatGPT-3 ជាភាសាអង់គ្លេស។

នៅក្នុង Common Crawl គ្រាន់តែជាសំណុំទិន្នន័យមួយដែលគំរូ AI ត្រូវបានបណ្តុះបណ្តាល ភាសាអង់គ្លេសបង្កើតបាន 47% នៃ corpus ជាមួយនឹងភាសាអឺរ៉ុបផ្សេងទៀតបង្កើតបាន 38% បន្ថែមទៀត។ ផ្ទុយទៅវិញ ចិន និងជប៉ុន រួមបញ្ចូលគ្នាមានត្រឹមតែ 9% ប៉ុណ្ណោះ។

រូបថតអេក្រង់ 2024 01 31 នៅ 151709.png — ទិន្នន័យភាគច្រើនដែលប្រើសម្រាប់ការបណ្តុះបណ្តាល LLM គឺជាភាសាអង់គ្លេស ឬភាសាអឺរ៉ុបផ្សេងទៀត។

នេះមិនមែនជាបញ្ហាដែលកំណត់ចំពោះ ChatGPT តែម្នាក់ឯងនោះទេ ដូចដែល Nathaniel Robinson អ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យ Johns Hopkins និងសហការីរបស់គាត់បានរកឃើញ។ LLMs ទាំងអស់ដំណើរការបានល្អជាងលើភាសា "ធនធានខ្ពស់" ដែលទិន្នន័យបណ្តុះបណ្តាលមានច្រើន ជាងភាសា "ធនធានទាប" ដែលវាខ្វះខាត។

នេះគឺជាបញ្ហាសម្រាប់អ្នកដែលសង្ឃឹមថានឹងនាំយក AI ទៅកាន់ប្រទេសក្រីក្រ ដើម្បីកែលម្អអ្វីៗគ្រប់យ៉ាងចាប់ពី ការអប់រំ រហូតដល់ការថែទាំសុខភាព។ ដូច្នេះ អ្នកស្រាវជ្រាវជុំវិញពិភពលោកកំពុងធ្វើការដើម្បីធ្វើឱ្យ AI កាន់តែមានពហុភាសា។

កាលពីខែកញ្ញាកន្លងទៅ រដ្ឋាភិបាល ឥណ្ឌាបានបើកដំណើរការជជែកកំសាន្តដែលជួយកសិករបន្តធ្វើបច្ចុប្បន្នភាពជាមួយនឹងព័ត៌មានដែលមានប្រយោជន៍ពីរដ្ឋាភិបាល។

Shankar Maruwada នៃមូលនិធិ EkStep ដែលជាអង្គការមិនរកប្រាក់ចំណេញដែលបានជួយបង្កើត chatbot បាននិយាយថា bot ដំណើរការដោយការរួមបញ្ចូលគំរូភាសាពីរប្រភេទ ដែលអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ដាក់សំណួរជាភាសាកំណើតរបស់ពួកគេ។ សំណួរជាភាសាដើមទាំងនេះត្រូវបានបញ្ជូនទៅកម្មវិធីបកប្រែម៉ាស៊ីននៅឯកន្លែងស្រាវជ្រាវឥណ្ឌា ដែលបកប្រែវាជាភាសាអង់គ្លេស មុនពេលបញ្ជូនបន្តការឆ្លើយតបទៅ LLM ដែលដំណើរការការឆ្លើយតប។ ជាចុងក្រោយ ការឆ្លើយតបត្រូវបានបកប្រែត្រឡប់ទៅជាភាសាកំណើតរបស់អ្នកប្រើប្រាស់វិញ។

ដំណើរការនេះអាចដំណើរការបាន ប៉ុន្តែការបកប្រែសំណួរទៅជាភាសា "ពេញចិត្ត" របស់ LLM គឺជាដំណោះស្រាយដ៏ច្របូកច្របល់។ ភាសាគឺជាការឆ្លុះបញ្ចាំងពីវប្បធម៌ និង ទស្សនៈពិភពលោក ។ ក្រដាសឆ្នាំ 2022 ដោយ Rebecca Johnson អ្នកស្រាវជ្រាវនៅសកលវិទ្យាល័យ Sydney បានរកឃើញថា ChatGPT-3 ផលិតចម្លើយលើប្រធានបទដូចជា ការគ្រប់គ្រងកាំភ្លើង និងគោលនយោបាយជនភៀសខ្លួន ដែលអាចប្រៀបធៀបទៅនឹងតម្លៃរបស់អាមេរិក ដែលបានបង្ហាញនៅក្នុង World Values Survey។

ជាលទ្ធផល អ្នកស្រាវជ្រាវជាច្រើនកំពុងព្យាយាមធ្វើឱ្យ LLMs ស្ទាត់ជំនាញក្នុងភាសាដែលមិនសូវប្រើ។ តាមបច្ចេកទេស វិធីសាស្រ្តមួយគឺដើម្បីកែប្រែសញ្ញាសម្ងាត់សម្រាប់ភាសា។ ការចាប់ផ្តើមអាជីវកម្មរបស់ឥណ្ឌាដែលមានឈ្មោះថា Sarvam AI បានសរសេរអក្សរសម្ងាត់ដែលធ្វើឱ្យប្រសើរឡើងសម្រាប់ភាសាហិណ្ឌូ ឬគំរូ OpenHathi - LLM ធ្វើឱ្យប្រសើរសម្រាប់ភាសា Devanagari (ឥណ្ឌា) ដែលអាចកាត់បន្ថយការចំណាយក្នុងការឆ្លើយសំណួរយ៉ាងច្រើន។

វិធីមួយទៀតគឺធ្វើឱ្យប្រសើរឡើងនូវសំណុំទិន្នន័យដែល LLM ត្រូវបានបណ្តុះបណ្តាល។ នៅក្នុងខែវិច្ឆិកា ក្រុមអ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យ Mohamed bin Zayed ក្នុងទីក្រុង Abu Dhabi បានចេញផ្សាយកំណែចុងក្រោយបំផុតនៃគំរូនិយាយភាសាអារ៉ាប់របស់ពួកគេដែលមានឈ្មោះថា "Jais" ។ វាមានមួយភាគប្រាំមួយនៃចំនួនប៉ារ៉ាម៉ែត្រនៃ ChatGPT-3 ប៉ុន្តែដំណើរការដូចគ្នានឹងភាសាអារ៉ាប់។

Timothy Baldwin ប្រធាននៃសាកលវិទ្យាល័យ Mohamed bin Zayed University បានកត់សម្គាល់ថា ទោះបីជាក្រុមរបស់គាត់បានធ្វើឌីជីថលជាច្រើននៃអត្ថបទអារ៉ាប់ក៏ដោយ អត្ថបទភាសាអង់គ្លេសមួយចំនួននៅតែត្រូវបានបញ្ចូលក្នុងគំរូនេះ។ គោលគំនិតខ្លះគឺដូចគ្នាគ្រប់ភាសា ហើយអាចរៀនបានគ្រប់ភាសា។

វិធីសាស្រ្តទីបីគឺការកែសំរួលម៉ូដែលបន្ទាប់ពីពួកគេត្រូវបានបណ្តុះបណ្តាល។ ទាំង Jais និង OpenHathi មានគូសំណួរ-ចម្លើយដែលបង្កើតដោយមនុស្ស។ ដូចគ្នាដែរចំពោះ chatbots របស់លោកខាងលិច ដើម្បីការពារព័ត៌មានមិនពិត។

Ernie Bot ដែលជា LLM មកពីក្រុមហ៊ុន Baidu ដែលជាក្រុមហ៊ុនបច្ចេកវិទ្យាចិនធំមួយ ត្រូវបានកែសម្រួលដើម្បីកំណត់ការនិយាយដែលអាចប្រមាថដល់រដ្ឋាភិបាល។ ម៉ូដែលក៏អាចរៀនពីមតិកែលម្អរបស់មនុស្សផងដែរ ដោយអ្នកប្រើប្រាស់វាយតម្លៃចម្លើយរបស់ LLM ។ ប៉ុន្តែវាជាការលំបាកក្នុងការធ្វើសម្រាប់ភាសាជាច្រើននៅក្នុងតំបន់ដែលមិនសូវអភិវឌ្ឍ ដោយសារតម្រូវការជួលមនុស្សដែលមានលក្ខណៈសម្បត្តិគ្រប់គ្រាន់ដើម្បីរិះគន់ការឆ្លើយតបរបស់ម៉ាស៊ីន។

(នេះបើតាមអ្នកសេដ្ឋកិច្ច)

កងទ័ពអាមេរិកប្រើ AI ដើម្បីប៉ាន់ប្រមាណតម្លៃនៃសារធាតុរ៉ែសំខាន់ៗ កងទ័ពអាមេរិកគ្រោងនឹងបង្កើតកម្មវិធីកុំព្យូទ័រដែលមានសមត្ថភាពប៉ាន់ស្មានតម្លៃ និងព្យាករណ៍ការផ្គត់ផ្គង់នីកែល កូបែល និងសារធាតុរ៉ែសំខាន់ៗផ្សេងទៀត។

ប្រភព