Dr. Dao Duc Minh: 'Menguasai data Vietnam adalah langkah pertama dalam mengembangkan dan menguasai teknologi Vietnam'
Báo Thanh niên•27/05/2024
Setelah bekerja untuk sebuah organisasi kecerdasan buatan besar di AS, mengapa Anda memutuskan untuk kembali ke Vietnam dan bergabung dengan VinBigdata? Selama bekerja di AS, meskipun saya berpartisipasi dalam banyak proyek pemerintah besar, hasil yang saya capai seringkali hanya beberapa langkah dalam proses pemrosesan yang besar. Sering kali, karena prosedur kerahasiaan proyek yang sangat ketat, saya bahkan tidak tahu bagaimana solusi yang saya kembangkan digunakan. Pada tahun 2017, saya kembali ke Vietnam ketika Vietnam masih dalam tahap pengembangan dan ada banyak masalah terkait big data dan kecerdasan buatan yang perlu dipecahkan. Saya menerima undangan Profesor Vu Ha Van untuk bersama-sama mewujudkan tujuan mengembangkan solusi teknologi Vietnam untuk melayani kehidupan masyarakat Vietnam. Saya merasa kepulangan saya ke Vietnam jauh lebih bermakna karena saya akan dapat menangani masalah dengan dampak yang lebih besar.
Dr. Dao Duc Minh dalam sebuah lokakarya
NVCC
Dalam strategi pengembangan kecerdasan buatan, apa peran dan pengaruh big data, Pak? Data memainkan peran yang sangat penting dan berharga dalam pelatihan kecerdasan buatan. Untuk melatih model kecerdasan buatan berkualitas tinggi, kita sering memulai dengan melatih basis data yang besar. Oleh karena itu, untuk memiliki kecerdasan buatan yang berkualitas, pertama-tama kita perlu memiliki data yang baik. Data yang baik perlu memenuhi standar dalam hal kuantitas dan skala, kualitas, keragaman, dan universalitas. Proses pengumpulan dan pemrosesan ribuan jam data dari langkah pembersihan data mentah untuk menciptakan data berkualitas tertinggi untuk dimasukkan ke dalam model kecerdasan buatan sangat mahal dan rumit. Sebaliknya, untuk menganalisis big data, kita perlu menggunakan kecerdasan buatan untuk memastikan kemampuan memproses data secara akurat dalam skala besar, sehingga menciptakan hasil yang lebih menentukan atau prediktif. Misalnya, dalam proses pengembangan produk asisten virtual untuk masyarakat Vietnam (ViVi), kami harus mengumpulkan dan memproses puluhan ribu jam data audio berkualitas tinggi, dari ratusan ribu suara dari berbagai daerah, usia, dan jenis kelamin, dengan konten yang mencakup ratusan bidang... Atau yang terbaru, peluncuran ViGPT - "ChatGPT versi Vietnam pertama untuk pengguna akhir" yang dikembangkan dari Model Bahasa Besar yang sepenuhnya dimiliki oleh VinBigdata. Model ini dilatih berdasarkan 600 GB data Vietnam yang telah diolah dari berbagai bidang. Dengan pemahaman kami tentang data dan bahasa Vietnam, kami menemukan pendekatan baru untuk mempersingkat waktu peluncuran ViGPT menjadi hanya 9 bulan setelah ChatGPT lahir. Inilah resonansi antara data besar dan kecerdasan buatan.
Bagaimana pandangan Anda tentang menghubungkan riset dengan nilai praktis untuk melayani masyarakat? - Saya percaya bahwa riset teknologi hanya benar-benar berhasil ketika benar-benar diterapkan, memecahkan masalah sosial, dan meningkatkan kualitas hidup masyarakat. Untuk menciptakan produk komersial yang praktis dan memecahkan masalah bisnis dan sosial, kita harus selalu memperhatikan dan bertanya: nilai apa yang akan dihadirkan data untuk kehidupan? Sejauh ini, kami telah meneliti berbagai produk dan solusi di berbagai industri dan bidang, khususnya ViGPT, VinDr - penyedia solusi AI dalam diagnosis pencitraan medis , VinBase - platform untuk kecerdasan buatan, atau Vizone - serangkaian solusi analisis citra pintar.
Bersama personel kunci VinBigdata di sebuah acara Vingroup Corporation
NVCC
Revolusi industri ke-4 telah berlangsung dengan kuat dalam skala global. Apa saja keunggulan yang menurut Anda dimiliki Vietnam? Dibandingkan dengan revolusi-revolusi sebelumnya, saya pikir Vietnam saat ini memiliki banyak keunggulan untuk menerobos revolusi industri 4.0 ini, membantu meningkatkan posisi negara di peta dunia . Dua kunci untuk mencapai tujuan ini adalah data dan manusia. Vietnam saat ini memiliki hampir 100 juta penduduk, dengan proporsi anak muda yang tinggi menggunakan ponsel dan komputer pribadi. Selain itu, kami memiliki para ahli bergengsi dalam kecerdasan buatan dan personel muda berkualitas tinggi dalam teknologi informasi serta memiliki dasar yang sangat baik dalam matematika. Lalu bagaimana dengan keterbatasannya? Keterbatasan pertama yang dapat dilihat adalah meskipun memiliki populasi yang besar, kami masih mengalami kesulitan dalam menguasai data, khususnya standarisasi dan sinkronisasi data di fasilitas, unit bisnis, dan administrasi. Selain itu, kami juga menghadapi kendala lain seperti sumber daya investasi yang terbatas, terutama investasi dalam infrastruktur komputasi berkinerja tinggi.
Menurut Anda, seberapa pentingkah penguasaan data Vietnam dalam perjalanan menciptakan dan menguasai teknologi untuk melayani kehidupan masyarakat Vietnam? Saat ini, terdapat banyak produk kecerdasan buatan terkemuka di dunia, biasanya produk aplikasi AI yang dibuat berdasarkan model bahasa besar seperti ChatGPT oleh OpenAI atau Bard oleh Google. Namun, bahasa Vietnam bukanlah kelompok bahasa inti untuk pengembangan produk-produk ini. Oleh karena itu, kualitas konten khusus bahasa Vietnam yang dikembalikan kepada pengguna sedikit banyak terpengaruh dan memiliki kemungkinan kesalahan yang tinggi, yang lebih berbahaya, kesalahan dalam pengetahuan dasar. Sebagai orang Vietnam, kita memiliki keuntungan untuk mengakses sumber data kita sendiri. Hanya kita yang memiliki kemampuan untuk memahami karakteristik data Vietnam, kebutuhan dan karakteristik orang Vietnam. Oleh karena itu, menguasai data Vietnam benar-benar merupakan kunci untuk menguasai teknologi inti, yang juga merupakan teknologi yang akan melayani masyarakat Vietnam.
Pelatihan internal untuk anggota VinBigdata
NVCC
Bagaimana cara mengakses sumber data tertentu, terutama ketika sebagian besar orang Vietnam saat ini menggunakan situs jejaring sosial dari luar negeri? Faktanya, sumber data manusia terbesar saat ini (tidak hanya orang Vietnam) ada di internet dan jejaring sosial. Namun, kami masih dapat mengakses dan mengumpulkan data dari berbagai sumber, berdasarkan pemahaman tentang karakteristik data Vietnam, tergantung pada karakteristik yang ditetapkan oleh setiap proyek. Misalnya, model GPT OpenAI memiliki ratusan, bahkan triliunan parameter, dilatih pada data dalam jumlah besar, dan menghabiskan biaya miliaran dolar. Dibandingkan dengan mereka, kami telah memilih arah yang sama sekali berbeda berdasarkan penelitian, kemampuan, dan sumber daya kami: yaitu, menciptakan model bahasa Vietnam dengan arsitektur hanya beberapa miliar parameter, dilatih pada kumpulan data Vietnam berukuran 600 GB yang kami kumpulkan dan sempurnakan sendiri, tetapi memiliki kemampuan yang sama untuk memproses bahasa Vietnam. Hasilnya menunjukkan bahwa arsitektur yang kami kembangkan sendiri dapat melakukan optimasi mandiri, mempersingkat waktu pelatihan model bahasa, mengurangi biaya, sekaligus memastikan kualitas model. Apa saja tantangan yang Anda dan tim hadapi dalam proses penelitian dan pengembangan produk kecerdasan buatan? Tantangan pertama tentu saja adalah waktu. Gelombang teknologi kecerdasan buatan datang dengan sangat cepat dan sedang berada dalam masa ledakan. Di dunia, perusahaan-perusahaan teknologi terkemuka telah dengan cepat meluncurkan produk-produk yang sangat lengkap dan terus diperbarui serta ditingkatkan. Jika kita lambat dan tidak meluncurkan produk tepat waktu, kita pasti akan tertinggal. Di sisi lain, jika kita ingin menciptakan produk yang dapat diterapkan dan memecahkan masalah sosial praktis, kita juga harus mempertimbangkan untuk menemukan dan mengembangkan fitur-fitur unggulan, khusus, dan unik dari produk tersebut.
Presentasi di Hari Kecerdasan Buatan Vietnam (AI4VN 2023)
NVCC
Faktanya, banyak individu dan organisasi di Vietnam dan di seluruh dunia telah menderita kerugian besar dalam kebocoran data. Bagaimana Anda memandang masalah keamanan data? Dapat dikatakan bahwa setiap aplikasi saat ini berasal dari data. Ketika bekerja dengan data, di satu sisi, kita harus memastikan tujuan penerapan data untuk menciptakan teknologi terbaik untuk kehidupan, dan di sisi lain, kita harus memastikan keamanan data untuk individu dan organisasi. Faktor manusia merupakan mata rantai yang sangat penting dalam proses memastikan keamanan data. Mereka termasuk pengembang, pengguna produk dan pengguna. Bagi pengembang, kesadaran akan keamanan data harus ada sejak awal pengumpulan dan pemrosesan data. Seringkali, ketika tidak ada masalah yang terjadi, kita tidak menyadari pentingnya keamanan data. Tetapi jika kebocoran data terjadi, kerusakannya bisa sangat besar. Pelanggaran data dapat terjadi karena masalah teknis atau serangan pencurian data yang disengaja. Ketika data dilanggar, individu atau organisasi dapat memiliki informasi mereka digunakan untuk tujuan ilegal oleh orang jahat, sementara bisnis dapat menderita kerugian finansial untuk memperbaiki masalah terkait, dan bahkan kerusakan pada merek mereka.
Dr. Dao Duc Minh dan tim VinBigdata di sebuah acara
NVCC
Setelah bercita-cita menguasai teknologi untuk melayani masyarakat Vietnam, haruskah ada langkah untuk maju ke dunia? Setiap organisasi atau perusahaan yang ingin membawa produknya ke pasar internasional harus mematuhi standar internasional. VinBigdata memiliki keunggulan dalam solusi dan teknologi, sehingga menetapkan visi untuk menaklukkan dunia adalah hal yang wajar. Tentu saja, untuk menerapkannya pada berbagai produk dan aplikasi, diperlukan dukungan dari unit-unit internasional yang berpengalaman dan memahami pengguna di seluruh dunia selama bertahun-tahun. Terima kasih!
Komentar (0)