Produk tersebut dengan cepat menjadi perbincangan di kalangan masyarakat sains dan teknologi Vietnam.

Pilih jalan yang sulit untuk menyelesaikan masalah Vietnam

Di penghujung tahun 2022, ChatGPT menciptakan "ledakan besar", membuka persaingan untuk menaklukkan AI buatan di antara negara-negara dan raksasa di bidang teknologi. Saat itu, komunitas teknologi Vietnam juga bersemangat mengembangkan produk-produk Vietnam agar mandiri dalam teknologi, sehingga mengurangi ketergantungan pada produk internasional. Namun, tidak semua unit memiliki kemampuan dan tekad untuk mewujudkan keinginan tersebut seperti VinBigdata.

AI generatif adalah masalah yang sulit. Perusahaan besar seperti OpenAI atau Google juga harus menghabiskan banyak sumber daya dan waktu untuk riset agar dapat menciptakan produk seperti yang kita lihat. Produk-produk ini sangat bagus, tetapi kenyataannya, para ilmuwan masih belum sepenuhnya memahami mekanisme kerjanya. Kapan terjadi kesalahan, dan seperti apa kesalahannya, hanya sedikit yang dapat memprediksinya. Mengembangkan produk serupa ChatGPT untuk orang Vietnam dalam waktu singkat kurang dari setahun, menghadapi banyak tantangan. Namun kami memilih untuk "mengambil risiko" karena jika ChatGPT versi Vietnam tidak dibuat oleh orang Vietnam, lalu siapa yang akan membuatnya?" - Profesor Vu Ha Van - Direktur Sains VinBigdata berbagi.

Faktanya, sangat sedikit perusahaan yang memilih untuk membangun Model Bahasa Besar mereka sendiri dari awal. Misalnya, GPT 3 OpenAI memiliki 175 miliar parameter dan dilatih pada set data 45 terabyte dengan biaya $4,6 juta. Menurut perhitungan, biaya pengembangan GPT 4 bahkan bisa mencapai $100 juta. "Dengan jumlah sebesar itu, sangat sulit menemukan perusahaan yang mampu berinvestasi dalam teknologi ini," ujar Dr. Nguyen Kim Anh, Direktur Produk VinBigdata.

gambar 1.jpg

Agar bisnis Vietnam dapat mengakses teknologi AI generasi baru dengan biaya dan infrastruktur yang optimal, VinBigdata memilih arah yang sama sekali berbeda, yaitu menciptakan model bahasa dengan hanya 1,6 miliar parameter, tetapi dengan kemampuan yang setara dengan model bahasa besar dengan miliaran parameter. "Hasilnya menunjukkan bahwa dengan arsitektur yang dikembangkan oleh VinBigdata sendiri, sangat memungkinkan untuk mengoptimalkan dan mempercepat proses pelatihan model bahasa, mengurangi biaya infrastruktur (termasuk biaya pelatihan dan biaya penggunaan), tetapi tetap memastikan kualitas model," tambah Dr. Nguyen Kim Anh.

Setelah memecahkan masalah ukuran model bahasa yang besar, selama proses "konsepsi" ViGPT, setelah mempelajari model asing, tim VinBigdata juga menyadari tantangan lain: "ilusi", yang berasal dari sifat bawaan model probabilitas statistik.

Oleh karena itu, model bahasa terbesar di dunia sering kali dilatih dengan sumber data berbahasa Inggris. Oleh karena itu, model ini tidak benar-benar memahami dan merespons konteks dan budaya orang Vietnam dengan tepat. Hal ini menyebabkan halusinasi yang menyebabkan model bahasa besar "memalsukan" jawaban yang salah.

gambar 3.jpg

Untuk menemukan solusi optimal dalam waktu sesingkat-singkatnya, tim Pemrosesan Bahasa Alami (NLP) VinBigdata dibagi menjadi beberapa kelompok kecil, menganalisis dan mendiskusikan berbagai ide untuk menemukan arah akhir yang paling sesuai.

"Akhirnya, kami memutuskan untuk mengembangkan arsitektur yang berbeda dari kebanyakan model bahasa besar saat ini, dan melakukan pelatihan pada set data Vietnam berukuran 600 GB yang telah disetel dengan baik, untuk menciptakan 'asisten virtual cerdas' yang mampu memahami dan memberikan jawaban sesuai konteks masyarakat Vietnam," tambah Dr. Nguyen Kim Anh.

Aspirasi untuk ekosistem teknologi Vietnam

Berdasarkan hasil penilaian Standar Penilaian Kecakapan Bahasa Vietnam (VMLU), ViGPT meraih skor rata-rata 42,24%, hanya kalah dari ChatGPT (48,54%). Hasil ini memungkinkan ViGPT untuk mencari informasi dan menjawab pertanyaan tentang topik-topik spesifik di Vietnam dengan cepat.

Selain kemampuan asisten virtual, tim pengembang ingin mengintegrasikan ViGPT ke dalam produk sehari-hari yang familiar untuk menciptakan perubahan dalam kehidupan masyarakat Vietnam. Hal inilah yang mendorong tim VinBigdata untuk membangun ekosistem produk bahasa dan suara yang menerapkan ViGPT - ekosistem "Vi" meliputi: ViChat, ViVoice, dan Asisten Virtual ViVi. Produk-produk ini dapat digunakan di berbagai industri, mulai dari industri otomotif, perbankan-keuangan, asuransi, transportasi, dan berbagai bidang lainnya.

"Saat bekerja dengan teknologi, terutama AI, kami tidak hanya ingin menaklukkan sistem yang menarik dan kompleks yang sulit dilihat. Kami ingin menciptakan produk yang nyata dan sangat aplikatif, di mana AI menjadi agen langsung yang menciptakan perubahan dalam hidup," tegas Direktur Produk VinBigdata.

gambar 4.jpg

Oleh karena itu, keberhasilan pengembangan ViGPT hanyalah langkah pertama dalam perjalanan menghadirkan teknologi dan data "murni Vietnam" untuk melayani kehidupan jutaan rakyat Vietnam. Seorang perwakilan VinBigdata mengatakan bahwa unit ini bertujuan untuk mengintegrasikan ViGPT ke dalam platform kecerdasan buatan multikognitif VinBase 2.0, guna menyediakan solusi terbaik bagi organisasi dan bisnis dari berbagai skala dan industri.

Sebelum ViGPT, tim ahli dan insinyur di bidang teknologi bahasa dan pemrosesan ucapan VinBigdata menandai kiprahnya dengan meluncurkan ViVi - asisten virtual Vietnam pertama yang komprehensif (diterapkan dan disebarkan pada mobil listrik VinFast , aplikasi Vinhomes Resident, dan platform e-commerce Vinhomes Online), di saat yang sama, sepenuhnya menguasai teknologi tercanggih di dunia seperti Biometrik Suara atau Kloning Suara.

Semua teknologi ini dikembangkan berdasarkan basis data 3.500 terabyte, dengan fokus utama pada data spesifik Vietnam yang dikumpulkan, dianalisis, dan disempurnakan oleh VinBigdata. Tujuan utamanya adalah menghadirkan teknologi dunia ke dalam kehidupan Vietnam, dengan memanfaatkan data dan sistem pengetahuan Vietnam.

ViGPT adalah "ChatGPT versi Vietnam" pertama untuk pengguna akhir yang dibangun di atas model bahasa besar Vietnam (LLM) yang dikembangkan oleh VinBigdata. ViGPT memiliki fitur-fitur unggulan dan dirancang untuk memenuhi kebutuhan masyarakat Vietnam, seperti pembuatan konten, pencarian informasi, dan menjawab pertanyaan umum khas Vietnam. Daftar dan nikmati ViGPT di: vigpt.vinbigdata.com

Thanh Ha