Vietnam.vn - Nền tảng quảng bá Việt Nam

Độc lập - Tự do - Hạnh phúc

Τεχνητές νοημοσύνης κειμένου σε βίντεο όπως η Sora

Báo Thanh niênBáo Thanh niên20/02/2024

[διαφήμιση_1]

Sora (OpenAI)

Το Sora είναι το νεότερο όνομα που ανακοινώθηκε, αλλά έχει προκαλέσει τη μεγαλύτερη αναστάτωση, εν μέρει επειδή είναι προϊόν του OpenAI - του διάσημου προγραμματιστή του ChatGPT, αλλά κυρίως λόγω της ποιότητας των βίντεο που δημιουργεί το πρόγραμμα απλώς από εντολές κειμένου.

Η επιτυχία της εταιρείας με το ChatGPT προσφέρει επίσης στην τεχνητή νοημοσύνη της μια βαθιά κατανόηση της γλώσσας. Τα κλιπ που καταδεικνύουν τις δυνατότητες του Sora δείχνουν χαρακτήρες να κινούνται και να εκφράζονται με έναν τρόπο τόσο ρεαλιστικό όσο μια ανθρώπινη ταινία.

Video "siêu thực" do Sora tạo từ các lệnh văn bản

«Σουρεαλιστικό» βίντεο που δημιουργήθηκε από τον Sora από εντολές κειμένου

Ωστόσο, το Sora δεν είναι ακόμη διαθέσιμο στο κοινό για λόγους ασφαλείας. Το OpenAI θα λάβει προσεκτικές μετρήσεις πριν το διαθέσει στο ευρύ κοινό, ειδικά δεδομένου του αυξανόμενου αριθμού χρηστών Τεχνητής Νοημοσύνης που το χρησιμοποιούν για κακόβουλους, πλαστοπροσωπούντες χρήστες ή για παράνομους σκοπούς.

Λουμιέρε (Google)

Το Lumiere είναι ένα προϊόν της Google, το οποίο είναι επίσης ικανό να δημιουργεί βίντεο από την εισαγωγή κειμένου, βασισμένο στο δομημένο μοντέλο διάχυσης STUNet (Space-Time-U-Net). Η Lumiere δεν ασχολείται με τη συρραφή στατικών καρέ, αλλά, αντίθετα, αυτή η τεχνητή νοημοσύνη αναγνωρίζει τις λεπτομέρειες στο βίντεο (χωρικό μέρος), παρακολουθεί τον τρόπο με τον οποίο κινούνται, αλλάζουν ταυτόχρονα (χρονικό μέρος), βοηθώντας έτσι την ομαλή λειτουργία της διαδικασίας.

Όπως και η Sora, η Lumiere δεν έχει κυκλοφορήσει ακόμη στο κοινό. Η εταιρεία την παρουσίασε μόλις στα τέλη Ιανουαρίου 2024, μετά την κυκλοφορία της Gemini, ενός σημαντικού γλωσσικού μοντέλου που μόλις συγχρονίστηκε με την Bard.

VideoPoet (Google)

Αυτό το μεγάλο γλωσσικό μοντέλο (LLM) εκπαιδεύεται από ένα τεράστιο αποθετήριο βίντεο, εικόνων, ήχου και κειμένου που αναπτύχθηκε από την Αναζήτηση Google το 2023. Το VideoPoet μπορεί να εκτελέσει διάφορες εργασίες από πηγές εισόδου όπως κείμενο, εικόνες, βίντεο... για να δημιουργήσει βίντεο, να επισημάνει περιεχόμενο, να μετατρέψει βίντεο σε ήχο, να μετατρέψει στατικές εικόνες σε κινούμενα σχέδια...

Η αρχική ιδέα για το VideoPoet προέκυψε από την ανάγκη μετατροπής οποιουδήποτε αυτοπαλίνδρομου γλωσσικού μοντέλου σε ένα σύστημα δημιουργίας βίντεο. Τα τρέχοντα αυτοπαλίνδρομα γλωσσικά μοντέλα μπορούν να επεξεργαστούν κείμενο και κώδικα προγραμματισμού όπως οι άνθρωποι, αλλά δυσκολεύονται όταν πρόκειται για βίντεο. Το VideoPoet λύνει αυτό το πρόβλημα χρησιμοποιώντας tokenization για να μετατρέψει την είσοδο από οποιαδήποτε μορφή σε μια γλώσσα που μπορεί να καταλάβει.

Các công cụ tạo ra video từ văn bản đa phần đang thử nghiệm giới hạn

Τα εργαλεία για τη δημιουργία βίντεο από κείμενο δοκιμάζουν ως επί το πλείστον τα όριά τους

Βίντεο Emu (Meta)

Εκτός από την Google και την OpenAI, η Meta είναι επίσης μία από τις μεγάλες τεχνολογικές εταιρείες που δραστηριοποιούνται στη δημιουργία τεχνητής νοημοσύνης. Η εταιρεία που κατέχει το Facebook ανέπτυξε επίσης μια τεχνητή νοημοσύνη για τη δημιουργία βίντεο που ονομάζεται Emu Video, η οποία μπορεί να μετατρέψει εικόνες σε κείμενο και στη συνέχεια να τη χρησιμοποιήσει ως δεδομένα για τη δημιουργία κλιπ.

Το Emu Video λαμβάνει θετικές κριτικές από τους δοκιμαστές beta, με το 81% να το προτιμά έναντι του Imagen Video (Google). Πάνω από το 90% επέλεξε το μοντέλο της Meta έναντι του PYOCO (Nvidia), και μάλιστα ξεπέρασε σε απόδοση το Make-A-Video της Meta (το οποίο επέλεξε το 96%).

CogVideo (Πανεπιστήμιο Tsinghua, Κίνα)

Σε αντίθεση με τα παραπάνω μοντέλα, τα οποία είναι όλα προϊόντα κορυφαίων εταιρειών τεχνολογίας παγκοσμίως , το CogVideo είναι μια τεχνητή νοημοσύνη που αναπτύχθηκε από μια ερευνητική ομάδα του Πανεπιστημίου Tsinghua - ενός κορυφαίου, αναγνωρισμένου πανεπιστημίου στην Κίνα, καθώς και στην Ασία. Το πρόγραμμα βασίζεται στο CogView2, ένα προ-εκπαιδευμένο μοντέλο μετατροπής κειμένου σε εικόνα.

Ο ειδικός στην τέχνη υπολογιστών, Γκλεν Μάρσαλ, ο οποίος δοκίμασε το CogVideo, δήλωσε ότι «οι σκηνοθέτες θα μπορούσαν να χάσουν τις δουλειές τους». Το κλιπ με τίτλο The Crow , το οποίο δημιούργησε με τη βοήθεια του CogVideo, έλαβε μεγάλο έπαινο και προτάθηκε για βραβείο της Βρετανικής Ακαδημίας Κινηματογράφου (BAFTA).


[διαφήμιση_2]
Σύνδεσμος πηγής

Σχόλιο (0)

No data
No data

Στο ίδιο θέμα

Στην ίδια κατηγορία

Γοητευμένος από τον πολύχρωμο κοραλλιογενή κόσμο κάτω από τη θάλασσα του Gia Lai μέσω ελεύθερης κατάδυσης
Θαυμάστε τη συλλογή από αρχαία φανάρια του Μεσοφθινοπώρου
Ανόι στις ιστορικές φθινοπωρινές μέρες: Ένας ελκυστικός προορισμός για τους τουρίστες
Γοητευμένος από τα κοραλλιογενή θαύματα της ξηρής περιόδου στη θάλασσα του Gia Lai και του Dak Lak

Από τον ίδιο συγγραφέα

Κληρονομία

Εικόνα

Επιχείρηση

No videos available

Νέα

Πολιτικό Σύστημα

Τοπικός

Προϊόν