
การทำงานให้กับองค์กรปัญญาประดิษฐ์ขนาดใหญ่ในสหรัฐอเมริกาทำให้คุณตัดสินใจกลับมาที่เวียดนามเพื่อเข้าร่วม VinBigdata ได้อย่างไร ในขณะที่ทำงานในสหรัฐอเมริกา แม้ว่าฉันจะมีส่วนร่วมในโครงการขนาดใหญ่
ของรัฐบาล หลายโครงการ แต่ผลลัพธ์ที่ฉันได้รับมักจะเป็นเพียงขั้นตอนไม่กี่ขั้นตอนในกระบวนการประมวลผลขนาดใหญ่ หลายครั้ง เนื่องจากขั้นตอนการรักษาความลับที่เข้มงวดมากของโครงการ ฉันไม่รู้ด้วยซ้ำว่าโซลูชันที่ฉันพัฒนาขึ้นนั้นถูกนำไปใช้อย่างไร ในปี 2560 ฉันกลับไปเวียดนามในช่วงที่เวียดนามอยู่ในขั้นตอนการพัฒนา และมีปัญหาจำนวนมากที่เกี่ยวข้องกับข้อมูลขนาดใหญ่และปัญญาประดิษฐ์ที่ต้องได้รับการแก้ไข ฉันยอมรับคำเชิญของศาสตราจารย์ Vu Ha Van เพื่อร่วมกันบรรลุเป้าหมายในการพัฒนาโซลูชันเทคโนโลยีของเวียดนามเพื่อรองรับชีวิตของชาวเวียดนาม ฉันพบว่าการกลับมาที่เวียดนามของฉันมีความหมายมากขึ้นเพราะฉันจะสามารถทำงานในปัญหาที่มีผลกระทบมากขึ้น
ดร. เดา ดึ๊ก มินห์ ในการประชุมเชิงปฏิบัติการ
ในกลยุทธ์การพัฒนาปัญญาประดิษฐ์ บทบาทและอิทธิพลของข้อมูลขนาดใหญ่คืออะไรครับ? ข้อมูลมีบทบาทสำคัญและมีค่ามากในการฝึกปัญญาประดิษฐ์ ในการฝึกโมเดลปัญญาประดิษฐ์ที่มีคุณภาพสูง เรามักจะเริ่มต้นด้วยการฝึกฐานข้อมูลขนาดใหญ่ ดังนั้น หากต้องการปัญญาประดิษฐ์ที่มีคุณภาพ เราต้องมีข้อมูลที่ดีก่อน ข้อมูลที่ดีต้องเป็นไปตามมาตรฐานในแง่ของปริมาณและขนาด คุณภาพ ความหลากหลาย และความเป็นสากล กระบวนการรวบรวมและประมวลผลข้อมูลหลายพันชั่วโมงจากขั้นตอนการทำความสะอาดข้อมูลดิบเพื่อสร้างข้อมูลคุณภาพสูงสุดเพื่อป้อนเข้าสู่โมเดลปัญญาประดิษฐ์นั้นมีค่าใช้จ่ายสูงและซับซ้อนมาก ในทางตรงกันข้าม ในการวิเคราะห์ข้อมูลขนาดใหญ่ เราจำเป็นต้องใช้ปัญญาประดิษฐ์เพื่อให้แน่ใจว่าสามารถประมวลผลข้อมูลได้อย่างแม่นยำในระดับขนาดใหญ่ จึงสร้างผลลัพธ์ที่ชัดเจนหรือทำนายได้ดีกว่า ตัวอย่างเช่น ในกระบวนการพัฒนาผลิตภัณฑ์ผู้ช่วยเสมือนสำหรับชาวเวียดนาม (ViVi) เราต้องรวบรวมและประมวลผลข้อมูลเสียงคุณภาพสูงจำนวนหลายหมื่นชั่วโมงจากเสียงหลายแสนเสียงจากภูมิภาคต่างๆ อายุและเพศที่หลากหลาย โดยมีเนื้อหาครอบคลุมหลายร้อยสาขา... หรือล่าสุดคือการเปิดตัว ViGPT - "ChatGPT เวอร์ชันภาษาเวียดนามเวอร์ชันแรกสำหรับผู้ใช้ปลายทาง" ซึ่งพัฒนาจาก Big Language Model ที่ VinBigdata เป็นเจ้าของทั้งหมด โดยโมเดลนี้ได้รับการฝึกอบรมจากข้อมูลภาษาเวียดนามที่ผ่านการปรับแต่งแล้วขนาด 600 GB จากสาขาต่างๆ มากมาย ด้วยความเข้าใจของเราเกี่ยวกับข้อมูลและภาษาเวียดนาม เราพบแนวทางใหม่ในการย่นระยะเวลาการเปิดตัว ViGPT ให้เหลือเพียง 9 เดือนหลังจาก ChatGPT ถือกำเนิดขึ้น นี่คือเสียงสะท้อนระหว่างข้อมูลขนาดใหญ่และปัญญาประดิษฐ์
คุณมีความคิดเห็นอย่างไรเกี่ยวกับการเชื่อมโยงการวิจัยกับคุณค่าเชิงปฏิบัติเพื่อให้บริการชุมชน - ฉันเชื่อว่าการวิจัยเทคโนโลยีจะประสบความสำเร็จอย่างแท้จริงก็ต่อเมื่อนำไปใช้ในชีวิตจริง แก้ไขปัญหาสังคม และปรับปรุงคุณภาพชีวิตของผู้คน เพื่อสร้างผลิตภัณฑ์เชิงพาณิชย์ที่ใช้งานได้จริงและแก้ไขปัญหาทางธุรกิจและสังคม เราต้องใส่ใจและตั้งคำถามเสมอว่าข้อมูลจะสร้างคุณค่าอะไรให้เกิดขึ้น จนถึงตอนนี้ เราได้ทำการวิจัยผลิตภัณฑ์และโซลูชันต่างๆ มากมายในอุตสาหกรรมและสาขาต่างๆ โดยทั่วไปคือ ViGPT, VinDr ซึ่งให้โซลูชัน AI ในการวินิจฉัยภาพทางการ
แพทย์ , VinBase ซึ่งเป็นแพลตฟอร์มสำหรับปัญญาประดิษฐ์ หรือ Vizone ซึ่งเป็นชุดโซลูชันการวิเคราะห์ภาพอัจฉริยะ
พร้อมด้วยบุคลากรสำคัญของ VinBigdata ในงานของ Vingroup Corporation
การปฏิวัติอุตสาหกรรมครั้งที่ 4 ได้เกิดขึ้นอย่างเข้มแข็งในระดับโลก คุณคิดว่าเวียดนามมีข้อได้เปรียบอะไรบ้าง? เมื่อเทียบกับการปฏิวัติครั้งก่อนๆ ฉันคิดว่าปัจจุบันเวียดนามมีข้อได้เปรียบหลายประการในการก้าวข้ามการปฏิวัติอุตสาหกรรม 4.0 ซึ่งจะช่วยปรับปรุงตำแหน่งของประเทศบนแผนที่
โลก ได้ กุญแจสำคัญสองประการในการบรรลุเป้าหมายนี้คือข้อมูลและผู้คน ปัจจุบันเวียดนามมีประชากรเกือบ 100 ล้านคน ซึ่งคนหนุ่มสาวจำนวนมากใช้โทรศัพท์และคอมพิวเตอร์ส่วนบุคคล นอกจากนี้เรายังมีผู้เชี่ยวชาญด้านปัญญาประดิษฐ์ที่มีชื่อเสียงและบุคลากรรุ่นใหม่ที่มีคุณภาพสูงในด้านเทคโนโลยีสารสนเทศ และมีพื้นฐานทางคณิตศาสตร์ที่ดีมาก แล้ว
ข้อจำกัดล่ะ? ข้อจำกัดประการแรกที่มองเห็นได้คือ แม้ว่าจะมีประชากรจำนวนมาก แต่เรายังคงประสบปัญหาในการเรียนรู้ข้อมูล โดยเฉพาะการทำให้ข้อมูลเป็นมาตรฐานและซิงโครไนซ์ข้อมูลในสถานที่ หน่วยธุรกิจ และฝ่ายบริหาร นอกจากนี้ เรายังเผชิญกับข้อจำกัดอื่นๆ เช่น ทรัพยากรการลงทุนที่จำกัด โดยเฉพาะการลงทุนในโครงสร้างพื้นฐานคอมพิวเตอร์ประสิทธิภาพสูง
ในความคิดเห็นของคุณ การเชี่ยวชาญข้อมูลภาษาเวียดนามมีความสำคัญเพียงใดในการสร้างและเชี่ยวชาญเทคโนโลยีเพื่อรองรับชีวิตของชาวเวียดนาม ปัจจุบันมีผลิตภัณฑ์ปัญญาประดิษฐ์ชั้นนำมากมายจากทั่วโลก โดยทั่วไปแล้วผลิตภัณฑ์แอปพลิเคชัน AI ที่สร้างขึ้นจากโมเดลภาษาขนาดใหญ่ เช่น ChatGPT โดย OpenAI หรือ Bard โดย Google อย่างไรก็ตาม ภาษาเวียดนามไม่ใช่กลุ่มภาษาหลักสำหรับการพัฒนาผลิตภัณฑ์เหล่านี้ ดังนั้น คุณภาพของเนื้อหาเฉพาะภาษาเวียดนามที่ส่งถึงผู้ใช้จึงได้รับผลกระทบไม่มากก็น้อย และมีความเสี่ยงสูงที่จะเกิดข้อผิดพลาด ซึ่งอันตรายกว่านั้นคือข้อผิดพลาดในความรู้พื้นฐาน ในฐานะชาวเวียดนาม เรามีความได้เปรียบในการเข้าถึงแหล่งข้อมูลของเราเอง เราเท่านั้นที่มีความสามารถในการเข้าใจลักษณะของข้อมูลภาษาเวียดนาม ความต้องการ และลักษณะเฉพาะของชาวเวียดนาม ดังนั้น การเชี่ยวชาญข้อมูลภาษาเวียดนามจึงเป็นกุญแจสำคัญในการเชี่ยวชาญเทคโนโลยีหลัก ซึ่งเป็นเทคโนโลยีที่จะให้บริการแก่ชาวเวียดนามด้วย
การฝึกอบรมภายในสำหรับสมาชิก VinBigdata
จะเข้าถึงแหล่งข้อมูลเฉพาะได้อย่างไร โดยเฉพาะอย่างยิ่งเมื่อคนเวียดนามส่วนใหญ่ในปัจจุบันใช้เว็บไซต์โซเชียลเน็ตเวิร์กจากต่างประเทศ ในความเป็นจริง แหล่งข้อมูลมนุษย์ที่ใหญ่ที่สุดในปัจจุบัน (ไม่เพียงแค่คนเวียดนามเท่านั้น) อยู่บนอินเทอร์เน็ตและโซเชียลเน็ตเวิร์ก อย่างไรก็ตาม เราสามารถเข้าถึงและรวบรวมข้อมูลจากแหล่งต่างๆ ได้โดยอาศัยความเข้าใจในลักษณะเฉพาะของข้อมูลเวียดนาม ซึ่งขึ้นอยู่กับลักษณะเฉพาะที่กำหนดโดยแต่ละโครงการ ตัวอย่างเช่น โมเดล GPT ของ OpenAI มีพารามิเตอร์หลายร้อยหรือหลายล้านล้านตัว ได้รับการฝึกอบรมจากข้อมูลจำนวนมหาศาล และมีค่าใช้จ่ายหลายพันล้านดอลลาร์ เมื่อเปรียบเทียบกับโมเดลเหล่านี้ เราได้เลือกแนวทางที่แตกต่างอย่างสิ้นเชิงโดยอิงจากการวิจัย ความสามารถ และทรัพยากรของเรา นั่นคือ การสร้างแบบจำลองภาษาเวียดนามที่มีสถาปัตยกรรมที่มีพารามิเตอร์เพียงไม่กี่พันล้านตัว ฝึกอบรมจากชุดข้อมูลภาษาเวียดนามขนาด 600 GB ที่เรารวบรวมและปรับแต่งเอง แต่มีความสามารถในการประมวลผลภาษาเวียดนามเหมือนกัน ผลลัพธ์แสดงให้เห็นว่าสถาปัตยกรรมที่เราพัฒนาขึ้นเองสามารถปรับให้เหมาะสมได้เอง ลดระยะเวลาการฝึกอบรมแบบจำลองภาษา ลดต้นทุน ในขณะที่ยังคงรับประกันคุณภาพของแบบ
จำลองได้ คุณและทีมของคุณเผชิญกับความท้าทายใดบ้างในกระบวนการวิจัยและพัฒนาผลิตภัณฑ์ปัญญาประดิษฐ์ ความท้าทายประการแรกคือเวลาอย่างแน่นอน คลื่นของเทคโนโลยีปัญญาประดิษฐ์กำลังมาอย่างรวดเร็วและอยู่ในช่วงของการระเบิด บริษัทเทคโนโลยีชั้นนำในโลกได้เปิดตัวผลิตภัณฑ์ที่สมบูรณ์แบบอย่างรวดเร็วซึ่งได้รับการอัปเดตและปรับปรุงอย่างต่อเนื่อง หากเราช้าและไม่เปิดตัวผลิตภัณฑ์ในเวลาที่กำหนด เราจะล้าหลังอย่างแน่นอน ในทางกลับกัน หากเราต้องการสร้างผลิตภัณฑ์ที่สามารถนำไปใช้และแก้ไขปัญหาสังคมในทางปฏิบัติได้ เราจะต้องพิจารณาการค้นหาและพัฒนาคุณสมบัติที่โดดเด่น พิเศษ และไม่เหมือนใครของผลิตภัณฑ์ด้วย
การนำเสนอที่ Vietnam Artificial Intelligence Day (AI4VN 2023)
ในความเป็นจริง บุคคลและองค์กรจำนวนมากในเวียดนามและทั่วโลกประสบกับความสูญเสียครั้งใหญ่จากการรั่วไหลของข้อมูล คุณมองปัญหาความปลอดภัยของข้อมูลอย่างไร? อาจกล่าวได้ว่าแอปพลิเคชันใดๆ ในปัจจุบันล้วนมาจากข้อมูล เมื่อทำงานกับข้อมูล ในแง่หนึ่ง เราต้องมั่นใจว่าเป้าหมายของการใช้ข้อมูลเพื่อสร้างเทคโนโลยีที่ดีที่สุดสำหรับชีวิต และในอีกด้านหนึ่ง เราต้องให้แน่ใจว่าข้อมูลมีความปลอดภัยสำหรับบุคคลและองค์กร ปัจจัยด้านมนุษย์เป็นปัจจัยสำคัญอย่างยิ่งในกระบวนการรับรองความปลอดภัยของข้อมูล ซึ่งรวมถึงนักพัฒนา ผู้ใช้ผลิตภัณฑ์ และผู้ใช้ สำหรับนักพัฒนา จำเป็นต้องตระหนักถึงความปลอดภัยของข้อมูลตั้งแต่เริ่มต้นการรวบรวมและประมวลผลข้อมูล บ่อยครั้ง เมื่อไม่มีปัญหาเกิดขึ้น เรามักจะไม่รู้ถึงความสำคัญของความปลอดภัยของข้อมูล แต่หากเกิดการรั่วไหลของข้อมูล ความเสียหายอาจมหาศาล การละเมิดข้อมูลอาจเกิดขึ้นได้เนื่องจากปัญหาทางเทคนิคหรือการโจมตีขโมยข้อมูลโดยเจตนา เมื่อเกิดการละเมิดข้อมูล บุคคลหรือองค์กรอาจนำข้อมูลของตนไปใช้เพื่อจุดประสงค์ที่ผิดกฎหมายโดยผู้ร้าย ในขณะที่ธุรกิจอาจประสบความสูญเสียทางการเงินในการแก้ไขปัญหาที่เกี่ยวข้อง และอาจสร้างความเสียหายต่อแบรนด์ของตนด้วย
ดร. Dao Duc Minh และทีมงาน VinBigdata ในงานสัมมนา
หลังจากความทะเยอทะยานที่จะเชี่ยวชาญด้านเทคโนโลยีเพื่อให้บริการชาวเวียดนามแล้ว จะต้องมีขั้นตอนในการก้าวไปสู่ระดับโลกหรือไม่ องค์กรหรือบริษัทใดๆ ที่ต้องการนำผลิตภัณฑ์ของตนออกสู่ตลาดต่างประเทศจะต้องปฏิบัติตามมาตรฐานสากล VinBigdata มีจุดแข็งในด้านโซลูชันและเทคโนโลยี ดังนั้นการกำหนดวิสัยทัศน์ในการพิชิตโลกจึงเป็นเรื่องธรรมดา แน่นอนว่าในการปรับใช้ผลิตภัณฑ์และแอปพลิเคชันต่างๆ มากมาย จำเป็นต้องมีความร่วมมือกับหน่วยงานระหว่างประเทศที่มีประสบการณ์หลายปีและความเข้าใจของผู้ใช้ทั่วโลก
ขอบคุณ! ธานเอิน.vn
ที่มา: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm
การแสดงความคิดเห็น (0)