Λίγες παράμετροι, πολλά δεδομένα

[διαφήμιση_1]

Το PaLM 2, το τελευταίο μεγάλο γλωσσικό μοντέλο (LLM) της Google που ανακοινώθηκε την περασμένη εβδομάδα, χρησιμοποιεί σχεδόν πέντε φορές περισσότερα δεδομένα εκπαίδευσης από τον προκάτοχό του του 2022, επιτρέποντάς του να κάνει πιο προηγμένο προγραμματισμό, μαθηματικά και δημιουργία περιεχομένου.

Στο Συνέδριο Προγραμματιστών Google I/O, ο γίγαντας της αναζήτησης παρουσίασε το PaLM 2 - ένα γλωσσικό μοντέλο που έχει εκπαιδευτεί σε 3,6 τρισεκατομμύρια tokens. Αυτά τα tokens είναι ακολουθίες λέξεων - τα δομικά στοιχεία που χρησιμοποιούνται για την εκπαίδευση του LLM ώστε να προβλέπει την επόμενη λέξη.

Η προηγούμενη έκδοση του PaLM κυκλοφόρησε το 2022 και είχε κοπεί με 780 δισεκατομμύρια tokens.

Ο Διευθύνων Σύμβουλος της Google, Sundar Pichai, στην εκδήλωση Google I/O της περασμένης εβδομάδας παρουσίασε το τελευταίο μοντέλο μεγάλης γλώσσας της εταιρείας, το PaLM 2.

Ενώ η Google διαφημίζει την ικανότητά της στην Τεχνητή Νοημοσύνη στην αναζήτηση, το email, την επεξεργασία κειμένου και τα υπολογιστικά φύλλα, η εταιρεία δίστασε να αποκαλύψει το μέγεθος ή τις λεπτομέρειες των συνόλων δεδομένων εκπαίδευσής της. Η OpenAI κρατά επίσης μυστικές τις λεπτομέρειες του τελευταίου αλγορίθμου εκπαίδευσης LLM, GPT-4.

Οι εταιρείες τεχνολογίας αποδίδουν τον λόγο στον ανταγωνιστικό χαρακτήρα των επιχειρήσεών τους. Τόσο η Google όσο και η OpenAI αγωνίζονται να προσελκύσουν χρήστες με chatbots αντί για τις παραδοσιακές μηχανές αναζήτησης.

Συμπαγές, ισχυρό, οικονομικό

Η Google αναφέρει ότι το PaLM 2 είναι μικρότερο από τους προκατόχους του, εκπαιδεύοντας με 340 δισεκατομμύρια παραμέτρους σε σύγκριση με τα 540 δισεκατομμύρια της προηγούμενης έκδοσης. Αυτό δείχνει ότι η τεχνολογία της εταιρείας γίνεται πιο αποτελεσματική στην εκτέλεση πολύπλοκων εργασιών.

Για να το πετύχει αυτό, το PaLM 2 χρησιμοποιεί μια νέα τεχνική που ονομάζεται «εκτεταμένη βελτιστοποίηση υπολογισμών», η οποία προσφέρει «καλύτερη συνολική απόδοση, συμπεριλαμβανομένης της ταχύτερης εξαγωγής συμπερασμάτων με λιγότερες παραμέτρους που μειώνουν τα γενικά έξοδα».

Το τελευταίο μοντέλο τεχνητής νοημοσύνης της Google, εκπαιδευμένο σε πάνω από 100 γλώσσες, εκτελεί μια ποικιλία εργασιών για 25 λειτουργίες και προϊόντα, συμπεριλαμβανομένου του πειραματικού chatbot Bard. Το PaLM 2 διατίθεται σε τέσσερις εκδόσεις με βάση το μέγεθος, από το μικρότερο στο μεγαλύτερο: Gecko, Otter, Bison και Unicorn.

Σύμφωνα με δημόσια τεκμηρίωση, το PaLM 2 είναι πιο ισχυρό από οποιοδήποτε υπάρχον μοντέλο. Το LlaMA του Facebook, που κυκλοφόρησε τον Φεβρουάριο, εκπαιδεύτηκε σε 1,4 τρισεκατομμύρια tokens. Εν τω μεταξύ, το OpenAI αποκάλυψε τελευταία φορά δημόσια το μέγεθος των δεδομένων εκπαίδευσης για το ChatGPT, μια έκδοση του GPT-3, με 300 δισεκατομμύρια tokens.

Η έκρηξη των εφαρμογών τεχνητής νοημοσύνης έχει δημιουργήσει διαμάχη γύρω από την τεχνολογία. Νωρίτερα φέτος, ο El Mahdi El Mhamdi, ανώτερος επιστήμονας στην Google Research, παραιτήθηκε σε ένδειξη διαμαρτυρίας για την έλλειψη διαφάνειας του γίγαντα της αναζήτησης.

Αυτή την εβδομάδα, ο Διευθύνων Σύμβουλος της OpenAI, Σαμ Άλτμαν, κατέθεσε επίσης ενώπιον της υποεπιτροπής Δικαιοσύνης της Γερουσίας των ΗΠΑ για την προστασία της ιδιωτικής ζωής και την τεχνολογία στο πλαίσιο της ευρύτερης διάδοσης της Τεχνητής Νοημοσύνης, όπου ο «πατέρας» του ChatGPT συμφώνησε με τους νομοθέτες ότι απαιτούνται νέοι κανονισμοί για τη διαχείριση της Τεχνητής Νοημοσύνης.

(Σύμφωνα με το CNBC)

[διαφήμιση_2]
Πηγή