Έχοντας εργαστεί για έναν μεγάλο οργανισμό τεχνητής νοημοσύνης στις ΗΠΑ, γιατί αποφασίσατε να επιστρέψετε στην πατρίδα σας για να ενταχθείτε στην VinBigdata;
Ενώ εργαζόμουν στις ΗΠΑ, παρόλο που συμμετείχα σε πολλά μεγάλα κυβερνητικά έργα, τα αποτελέσματα που παρήγαγα ήταν συχνά μόνο μερικά βήματα σε μια μεγάλη διαδικασία. Πολλές φορές, λόγω της αυστηρής εμπιστευτικότητας των έργων, δεν γνώριζα καν πώς χρησιμοποιούνταν οι λύσεις που ανέπτυσσα.
Το 2017, επέστρεψα στο Βιετνάμ, όταν το Βιετνάμ βρισκόταν στο στάδιο της ανάπτυξης και υπήρχαν πολλά προβλήματα που σχετίζονταν με τα μεγάλα δεδομένα και την τεχνητή νοημοσύνη και έπρεπε να λυθούν. Δέχτηκα την πρόσκληση του καθηγητή Vu Ha Van για να υλοποιήσουμε από κοινού τον στόχο της ανάπτυξης βιετναμέζικων τεχνολογικών λύσεων για την εξυπηρέτηση της ζωής του λαού του Βιετνάμ. Βρήκα την επιστροφή μου στο Βιετνάμ πολύ πιο ουσιαστική, επειδή θα μπορούσα να εργαστώ σε προβλήματα με μεγαλύτερο αντίκτυπο.
Ο Δρ. Ντάο Ντουκ Μινχ σε ένα εργαστήριο
Στη στρατηγική ανάπτυξης της τεχνητής νοημοσύνης, ποιος είναι ο ρόλος και η επιρροή που παίζουν τα μεγάλα δεδομένα, κύριε;
Τα δεδομένα παίζουν τεράστιο και πολύτιμο ρόλο στην εκπαίδευση της τεχνητής νοημοσύνης. Η εκπαίδευση ενός μοντέλου τεχνητής νοημοσύνης υψηλής ποιότητας συχνά ξεκινά με την εκπαίδευση μιας μεγάλης βάσης δεδομένων. Επομένως, για να έχουμε ποιοτική τεχνητή νοημοσύνη, πρέπει πρώτα να έχουμε καλά δεδομένα.
Τα καλά δεδομένα απαιτούν ποσότητα και κλίμακα, ποιότητα, ποικιλία και καθολικότητα. Η διαδικασία συλλογής και επεξεργασίας χιλιάδων ωρών δεδομένων από το βήμα καθαρισμού των ακατέργαστων δεδομένων για τη δημιουργία δεδομένων υψηλότερης ποιότητας που θα τροφοδοτήσουν μοντέλα τεχνητής νοημοσύνης είναι πολύ ακριβή και πολύπλοκη. Αντίθετα, για την ανάλυση μεγάλων δεδομένων, πρέπει να χρησιμοποιήσουμε τεχνητή νοημοσύνη για να διασφαλίσουμε την ικανότητα ακριβούς επεξεργασίας δεδομένων σε μεγάλη κλίμακα, δημιουργώντας έτσι καλύτερα, αποφασιστικά ή προγνωστικά αποτελέσματα.
Για παράδειγμα, κατά τη διαδικασία ανάπτυξης ενός προϊόντος εικονικού βοηθού για Βιετναμέζους (ViVi), έπρεπε να συλλέξουμε και να επεξεργαστούμε δεκάδες χιλιάδες ώρες ηχητικών δεδομένων υψηλής ποιότητας, από εκατοντάδες χιλιάδες φωνές από διαφορετικές περιοχές, διαφορετικές ηλικίες και φύλα, με περιεχόμενο που εκτείνεται σε εκατοντάδες τομείς...
Ή πιο πρόσφατα, η κυκλοφορία του ViGPT - "Η πρώτη βιετναμέζικη έκδοση του ChatGPT για τελικούς χρήστες" που αναπτύχθηκε από ένα Μεγάλο Γλωσσικό Μοντέλο που ανήκει εξ ολοκλήρου στην VinBigdata. Αυτό το μοντέλο εκπαιδεύεται με βάση 600 GB επεξεργασμένων βιετναμέζικων δεδομένων από πολλά διαφορετικά πεδία. Με την κατανόησή μας για τα βιετναμέζικα δεδομένα και τη γλώσσα, βρήκαμε μια νέα προσέγγιση για να μειώσουμε τον χρόνο κυκλοφορίας του ViGPT μέσα σε μόλις 9 μήνες από τη δημιουργία του ChatGPT.
Αυτή είναι η σχέση μεταξύ των μεγάλων δεδομένων και της τεχνητής νοημοσύνης.
Ποια είναι η άποψή σας σχετικά με τη σύνδεση της έρευνας με την πρακτική αξία για την εξυπηρέτηση της κοινότητας;
- Πιστεύω ότι η τεχνολογική έρευνα είναι πραγματικά επιτυχημένη μόνο όταν εισέρχεται στην πράξη, λύνει κοινωνικά προβλήματα και βελτιώνει τη ζωή των ανθρώπων.
Για να δημιουργήσουμε πρακτικά εμπορικά προϊόντα που λύνουν επιχειρηματικά και κοινωνικά προβλήματα, πρέπει πάντα να δίνουμε προσοχή και να θέτουμε το ερώτημα: ποια αξία θα φέρουν τα δεδομένα στη ζωή;
Μέχρι σήμερα, έχουμε ερευνήσει και αναπτύξει μια ποικιλία προϊόντων και λύσεων για διάφορους κλάδους και τομείς, όπως το ViGPT, το VinDr - που παρέχει λύσεις Τεχνητής Νοημοσύνης στη διάγνωση ιατρικής απεικόνισης, το VinBase - μια πλατφόρμα βιοτεχνητής νοημοσύνης ή το Vizone - ένα σύνολο έξυπνων λύσεων ανάλυσης εικόνας.
Με βασικά στελέχη της VinBigdata σε εκδήλωση της Vingroup Corporation
Η 4η βιομηχανική επανάσταση λαμβάνει χώρα δυναμικά σε παγκόσμια κλίμακα. Ποια πλεονεκτήματα πιστεύετε ότι έχει το Βιετνάμ;
Σε σύγκριση με προηγούμενες επαναστάσεις, πιστεύω ότι το Βιετνάμ έχει σήμερα πολλά πλεονεκτήματα να αξιοποιήσει σε αυτήν την βιομηχανική επανάσταση 4.0, συμβάλλοντας στη βελτίωση της θέσης της χώρας στον παγκόσμιο χάρτη. Τα δύο κλειδιά για την επίτευξη αυτού του στόχου είναι τα δεδομένα και οι άνθρωποι.
Το Βιετνάμ έχει σήμερα σχεδόν 100 εκατομμύρια κατοίκους, εκ των οποίων ένα υψηλό ποσοστό νέων χρησιμοποιεί τηλέφωνα και προσωπικούς υπολογιστές. Επιπλέον, διαθέτουμε αξιόπιστους ειδικούς στην τεχνητή νοημοσύνη και ποιοτικό νεαρό προσωπικό στην τεχνολογία των πληροφοριών, ενώ διαθέτουμε και πολύ καλή βάση στα μαθηματικά.
Ποιοι είναι λοιπόν οι περιορισμοί;
Ο πρώτος προφανής περιορισμός είναι ότι, παρά τον μεγάλο πληθυσμό, εξακολουθούμε να αντιμετωπίζουμε δυσκολίες στην διαχείριση των δεδομένων, και συγκεκριμένα στην τυποποίηση και τον συγχρονισμό δεδομένων σε εγκαταστάσεις, επιχειρηματικές μονάδες και διοικήσεις.
Επιπλέον, αντιμετωπίζουμε και άλλους περιορισμούς, όπως οι περιορισμένοι επενδυτικοί πόροι, ιδίως οι επενδύσεις σε υποδομές υπολογιστών υψηλής απόδοσης.
Κατά τη γνώμη σας, πόσο σημαντικός είναι ο ρόλος της βιετναμέζικης γνώσης δεδομένων στο ταξίδι της δημιουργίας και της αξιοποίησης της τεχνολογίας για την εξυπηρέτηση της ζωής του Βιετναμέζικου λαού;
Αυτή τη στιγμή, υπάρχουν πολλά κορυφαία προϊόντα τεχνητής νοημοσύνης στον κόσμο, συνήθως προϊόντα εφαρμογών γενετικής τεχνητής νοημοσύνης που βασίζονται σε μεγάλα γλωσσικά μοντέλα, όπως το ChatGPT από την OpenAI ή το Bard από την Google. Ωστόσο, τα βιετναμέζικα δεν είναι η κύρια γλωσσική ομάδα για την ανάπτυξη αυτών των προϊόντων.
Επομένως, η ποιότητα του περιεχομένου που επιστρέφεται στους χρήστες για Βιετναμέζικα επηρεάζεται λίγο πολύ και υπάρχει μεγάλη πιθανότητα σφαλμάτων, και το πιο επικίνδυνο, σφαλμάτων σε βασικές γνώσεις.
Ως Βιετναμέζοι, έχουμε το πλεονέκτημα της πρόσβασης στις δικές μας πηγές δεδομένων. Μόνο εμείς έχουμε την ικανότητα να κατανοούμε τα χαρακτηριστικά των βιετναμέζικων δεδομένων, τις ανάγκες και τα χαρακτηριστικά του λαού των Βιετναμέζων. Επομένως, η κατανόηση των βιετναμέζικων δεδομένων είναι στην πραγματικότητα το κλειδί για την κατανόηση των βασικών τεχνολογιών, οι οποίες είναι οι τεχνολογίες που θα εξυπηρετήσουν τον λαό των Βιετναμέζων.
Εσωτερική εκπαίδευση για μέλη της VinBigdata
Πώς να αποκτήσετε πρόσβαση σε συγκεκριμένες πηγές δεδομένων, ειδικά όταν οι περισσότεροι Βιετναμέζοι σήμερα χρησιμοποιούν ιστότοπους κοινωνικής δικτύωσης από το εξωτερικό;
Η πραγματικότητα είναι ότι η μεγαλύτερη πηγή ανθρώπινων δεδομένων σήμερα (όχι μόνο των Βιετναμέζων) βρίσκεται στο διαδίκτυο και τα κοινωνικά δίκτυα. Ωστόσο, εξακολουθούμε να μπορούμε να έχουμε πρόσβαση και να συλλέγουμε δεδομένα από διαφορετικές πηγές, με βάση την κατανόηση των χαρακτηριστικών των βιετναμέζικων δεδομένων, ανάλογα με τα χαρακτηριστικά που ορίζει κάθε έργο.
Για παράδειγμα, τα μοντέλα GPT της OpenAI έχουν εκατοντάδες, ακόμη και τρισεκατομμύρια παραμέτρους, εκπαιδεύονται σε τεράστιες ποσότητες δεδομένων και κοστίζουν δισεκατομμύρια δολάρια. Σε σύγκριση με αυτά, έχουμε επιλέξει μια εντελώς διαφορετική πορεία με βάση την έρευνα, τις δυνατότητες και τους πόρους μας: τη δημιουργία ενός μοντέλου βιετναμέζικης γλώσσας με αρχιτεκτονική μόνο μερικών δισεκατομμυρίων παραμέτρων, εκπαιδευμένου σε ένα σύνολο δεδομένων βιετναμέζικης γλώσσας 600 GB που συλλέξαμε και βελτιστοποιήσαμε οι ίδιοι, αλλά με ισοδύναμες δυνατότητες όσον αφορά την επεξεργασία βιετναμέζικων. Τα αποτελέσματα δείχνουν ότι η αυτοαναπτυγμένη αρχιτεκτονική μας μπορεί να αυτοβελτιστοποιηθεί, να συντομεύσει τον χρόνο εκπαίδευσης του γλωσσικού μοντέλου, να μειώσει το κόστος και να διασφαλίσει παράλληλα την ποιότητα του μοντέλου.
Ποιες είναι οι προκλήσεις που αντιμετωπίσατε εσείς και η ομάδα σας στη διαδικασία έρευνας και ανάπτυξης προϊόντων τεχνητής νοημοσύνης;
Η πρώτη πρόκληση είναι σίγουρα ο χρόνος. Το κύμα της τεχνολογίας τεχνητής νοημοσύνης έρχεται πολύ γρήγορα και βρίσκεται σε περίοδο έκρηξης. Στον κόσμο, οι κορυφαίες εταιρείες τεχνολογίας έχουν λανσάρει γρήγορα προϊόντα υψηλής ποιότητας, τα οποία ενημερώνονται και βελτιώνονται συνεχώς. Αν είμαστε αργοί και δεν λανσάρουμε προϊόντα εγκαίρως, σίγουρα θα μείνουμε πίσω.
Από την άλλη πλευρά, αν θέλουμε να δημιουργήσουμε προϊόντα που μπορούν να εφαρμοστούν και να λύσουν πρακτικά κοινωνικά προβλήματα, πρέπει επίσης να εξετάσουμε την εύρεση και την ανάπτυξη των εξαιρετικών, ειδικών και μοναδικών χαρακτηριστικών του προϊόντος.
Παρουσίαση στην Ημέρα Τεχνητής Νοημοσύνης του Βιετνάμ (AI4VN 2023)
Στην πραγματικότητα, πολλά άτομα και οργανισμοί στο Βιετνάμ και σε όλο τον κόσμο έχουν υποστεί μεγάλες απώλειες από διαρροές δεδομένων. Πώς βλέπετε το ζήτημα της ασφάλειας των δεδομένων;
Μπορεί να ειπωθεί ότι κάθε εφαρμογή σήμερα προέρχεται από δεδομένα. Όταν εργαζόμαστε με δεδομένα, αφενός, πρέπει να διασφαλίσουμε τον στόχο της εφαρμογής δεδομένων για τη δημιουργία της καλύτερης τεχνολογίας για μια ζωή και, αφετέρου, πρέπει να διασφαλίσουμε την ασφάλεια των δεδομένων για τα άτομα και τους οργανισμούς.
Ο ανθρώπινος παράγοντας είναι ένας πολύ σημαντικός κρίκος στη διαδικασία διασφάλισης της ασφάλειας δεδομένων. Σε αυτόν περιλαμβάνονται οι προγραμματιστές, οι χρήστες προϊόντων και οι χρήστες. Για τους προγραμματιστές, η επίγνωση της ασφάλειας των δεδομένων πρέπει να υπάρχει από την αρχή της συλλογής και επεξεργασίας δεδομένων.
Συχνά, όταν δεν υπάρχει πρόβλημα, δεν γνωρίζουμε τη σημασία της ασφάλειας των δεδομένων. Αλλά εάν συμβεί διαρροή δεδομένων, η ζημιά μπορεί να είναι τεράστια. Διαρροές δεδομένων μπορεί να προκληθούν λόγω τεχνικών προβλημάτων ή σκόπιμων επιθέσεων για κλοπή δεδομένων. Όταν διαρρέουν δεδομένα, οι πληροφορίες ατόμων ή οργανισμών μπορεί να χρησιμοποιηθούν από κακοποιούς για παράνομους σκοπούς και οι επιχειρήσεις μπορεί να υποστούν οικονομικές απώλειες για την επίλυση σχετικών προβλημάτων, ακόμη και ζημιά στην επωνυμία τους.
Ο Δρ. Ντάο Ντουκ Μινχ και η ομάδα της VinBigdata σε μια εκδήλωση
Μετά την φιλοδοξία να κατακτήσουμε την τεχνολογία για να υπηρετήσουμε τον Βιετναμέζικο λαό, θα υπάρξουν βήματα για να προχωρήσουμε στον κόσμο;
Κάθε οργανισμός ή επιχείρηση που θέλει να φέρει τα προϊόντα της στη διεθνή αγορά πρέπει να συμμορφώνεται με τα διεθνή πρότυπα. Η VinBigdata έχει πλεονεκτήματα σε λύσεις και τεχνολογία, επομένως ο καθορισμός ενός οράματος για την κατάκτηση του κόσμου είναι φυσικός.
Φυσικά, για την ανάπτυξη πολλών διαφορετικών προϊόντων και εφαρμογών, είναι απαραίτητο να υπάρχει η υποστήριξη διεθνών μονάδων με πολυετή εμπειρία και κατανόηση των χρηστών σε όλο τον κόσμο.
Σας ευχαριστώ!
[διαφήμιση_2]
Πηγή: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm
Σχόλιο (0)