Το Google Gemini ανεβάζει την Τεχνητή Νοημοσύνη στο επόμενο επίπεδο: Αλλάξτε φόντο, χτένισμα και συνδυάστε φωτογραφίες με μία μόνο εντολή

Με τη νέα ενημέρωση, το Google Gemini επιτρέπει στους χρήστες να αλλάζουν φόντα, χτενίσματα και κολάζ φωτογραφιών, διατηρώντας παράλληλα το πρόσωπο και τα χαρακτηριστικά του θέματος ανέπαφα.

VietNamNet•27/08/2025

Η αναβάθμιση του Google Gemini χρησιμοποιεί το μοντέλο εικόνας «nano banana» που αναπτύχθηκε από την Google DeepMind. Η λειτουργία είναι πλέον διαθέσιμη παγκοσμίως τόσο για δωρεάν όσο και για επί πληρωμή χρήστες. Το μεγαλύτερο δυνατό σημείο της είναι η ικανότητά της να διατηρεί τα πρόσωπα και τα αντικείμενα ομοιόμορφα στις φωτογραφίες, κάτι με το οποίο άλλα εργαλεία τεχνητής νοημοσύνης συχνά δυσκολεύονται.

«Έχουμε βελτιώσει σημαντικά την ποιότητα των εικόνων και την ικανότητα του μοντέλου να ακολουθεί τις οδηγίες», δήλωσε η Nicole Brichtova, επικεφαλής προϊόντος στην DeepMind. «Αυτή η ενημέρωση κάνει τις επεξεργασίες πιο απρόσκοπτες και τα αποτελέσματα είναι αρκετά καλά για να χρησιμοποιηθούν για οποιονδήποτε σκοπό».

Κράτα το «εσένα» σε κάθε φωτογραφία

Ένα από τα πράγματα που κάνουν τις φωτογραφίες με τεχνητή νοημοσύνη να φαίνονται ψεύτικες είναι ότι οι μικρές λεπτομέρειες παραμορφώνονται. Η Google λέει ότι το Gemini λύνει αυτό το πρόβλημα, επιτρέποντάς σας να αλλάξετε ολόκληρη τη σκηνή διατηρώντας παράλληλα το πρόσωπο και την έκφραση ίδια. Μπορείτε να δοκιμάσετε ένα νέο χτένισμα, να αλλάξετε το χρώμα του τοίχου ή να φέρετε ένα κατοικίδιο στη σκηνή χωρίς να ανησυχείτε για παραμόρφωση της εικόνας.

Συνδυάστε φωτογραφίες μεταξύ τους.gif — Συγχώνευση φωτογραφιών με νέο πλαίσιο από δύο υπάρχουσες εικόνες χρησιμοποιώντας το Google Gemini. Πηγή: Google

Το Gemini σάς επιτρέπει επίσης να ανεβάσετε πολλές φωτογραφίες για να τις συνδυάσετε σε μία, όπως να συνδυάσετε ένα πορτρέτο με τη γάτα σας για να δημιουργήσετε μια φωτογραφία των δυο σας να κάνετε ποδήλατο μαζί στο δρόμο.

Το Gemini υποστηρίζει επεξεργασία πολλαπλών στροφών, επιτρέποντας στους χρήστες να προσθέσουν κάθε λεπτομέρεια σε έναν χώρο: από ταπετσαρία, έπιπλα, μέχρι χρώμα μπογιάς. Το θετικό είναι ότι αλλάζει μόνο το μέρος που χρειάζεται επεξεργασία, τα υπόλοιπα παραμένουν ίδια.

Επιπλέον, ο Δίδυμος μπορεί να συνδυάσει στυλ μεταξύ φωτογραφιών. Για παράδειγμα, να μετατρέψει τις αδιάβροχες μπότες σε παπούτσια με φλοράλ σχέδια ή να δημιουργήσει ένα φόρεμα με μοτίβο πεταλούδας.

Αγώνας δρόμου μεταξύ τεχνολογικών γιγάντων για τη δημιουργία εικόνων με τεχνητή νοημοσύνη

Η αναβάθμιση της Google έρχεται καθώς ο πόλεμος της απεικόνισης με τεχνητή νοημοσύνη κλιμακώνεται. Η OpenAI είχε κυκλοφορήσει προηγουμένως το GPT-4o, το οποίο μπορεί να δημιουργεί εικόνες απευθείας, και έγινε viral με μια σειρά από memes τύπου Studio Ghibli. Ο Διευθύνων Σύμβουλος Sam Altman αποκάλυψε ότι ο αριθμός των χρηστών αυξήθηκε τόσο πολύ που οι GPU της εταιρείας «σχεδόν έλιωσαν».

Για να συμβαδίσει, η Meta ανακοίνωσε μια συνεργασία με την Midjourney, ενώ η γερμανική νεοσύστατη εταιρεία Black Forest Labs με το μοντέλο FLUX κυριαρχεί σε πολλά charts.

επεξεργασία πολλαπλών στροφών.gif — Δυνατότητες επεξεργασίας φωτογραφιών σε πολλαπλά βήματα του Google Gemini. Πηγή: Google

Η Google ελπίζει ότι η Gemini θα καταφέρει να κλείσει το χάσμα με το ChatGPT. Η Gemini έχει αυτή τη στιγμή 450 εκατομμύρια μηνιαίους χρήστες, σύμφωνα με τον Διευθύνοντα Σύμβουλο Sundar Pichai, πολύ πίσω από το ChatGPT, το οποίο έχει περισσότερους από 700 εκατομμύρια εβδομαδιαίους χρήστες.

Η Μπρίχτοβα είπε ότι το Gemini έχει σχεδιαστεί για σενάρια πραγματικού κόσμου, από την οπτικοποίηση καθιστικών και κήπων έως τη δημιουργία διασκεδαστικών φωτογραφιών. Το μοντέλο έχει καλύτερη «γνώση του κόσμου » και μπορεί να συνδυάσει πολλαπλές φωτογραφίες και παλέτες χρωμάτων σε μία μόνο απόδοση.

Ωστόσο, η Google επιβάλλει επίσης αυστηρούς περιορισμούς. Όλες οι εικόνες που δημιουργούνται έχουν ένα σαφές υδατογράφημα και ένα αναγνωριστικό σημάδι κρυμμένο στα μεταδεδομένα. Η εταιρεία απαγορεύει αυστηρά τη δημιουργία ευαίσθητων εικόνων χωρίς άδεια για την αποτροπή της κατάχρησης deepfake.

Η Google έχει ζητήσει συγγνώμη στο παρελθόν για τις ανακριβείς ιστορικές εικόνες της Gemini. Αυτή τη φορά, η εταιρεία πιστεύει ότι έχει πετύχει μια ισορροπία μεταξύ δημιουργικότητας και ασφάλειας. «Θέλουμε οι χρήστες να είναι δημιουργικοί, αλλά δεν επιτρέπονται όλα», τόνισε η Brichtova.

Με το Gemini 2.5 Flash Image, η Google στοιχηματίζει στην αναβάθμιση της εμπειρίας επεξεργασίας φωτογραφιών με τεχνητή νοημοσύνη, ελπίζοντας να διατηρήσει τους παλιούς χρήστες και να προσελκύσει νέους σε έναν σκληρό τεχνολογικό αγώνα με το OpenAI, το Meta και άλλους ανταγωνιστές.

(Σύμφωνα με το TechCrunch, Οδηγός του Tom)

Με 85 εκατομμύρια VND ανά «εγκέφαλο», η Nvidia ανοίγει το δρόμο για την εποχή της ανθρώπινης κατασκευής ρομπότ. Η Nvidia μόλις κυκλοφόρησε το Jetson AGX Thor - ένα τσιπ που ονομάζεται «εγκέφαλος ρομπότ», ικανό να βοηθά τις μηχανές να βλέπουν, να σκέφτονται και να ενεργούν σαν άνθρωποι, ανοίγοντας τον αγώνα της φυσικής τεχνητής νοημοσύνης με 3.499 δολάρια ΗΠΑ.

Πηγή: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html