La mise à niveau de Google Gemini utilise le modèle d'image « nano banane » développé par Google DeepMind. Cette fonctionnalité est désormais disponible dans le monde entier pour les utilisateurs gratuits et payants. Son principal atout réside dans sa capacité à conserver la cohérence des visages et des objets sur les photos, un point faible souvent rencontré par les autres outils d'IA.
« Nous avons considérablement amélioré la qualité des images et la capacité du modèle à suivre les instructions », a déclaré Nicole Brichtova, chef de produit chez DeepMind. « Cette mise à jour simplifie les modifications et les résultats sont suffisamment bons pour être utilisés à toutes fins. »
Gardez « vous » sur chaque photo
L'une des raisons pour lesquelles les photos prises par l'IA semblent fausses est la distorsion des petits détails. Google affirme que Gemini résout ce problème en permettant de modifier l'intégralité de la scène tout en conservant le visage et l'expression. Vous pouvez essayer une nouvelle coiffure, changer la couleur du mur ou intégrer un animal de compagnie sans vous soucier de la distorsion de l'image.

Gemini vous permet également de télécharger plusieurs photos à combiner en une seule, par exemple en combinant un portrait avec votre chat pour créer une photo de vous deux roulant ensemble sur la route.
Gemini prend en charge l'édition multi-tours, permettant aux utilisateurs d'ajouter chaque détail à un espace : du papier peint aux meubles, en passant par la couleur de la peinture. L'avantage ? Seule la partie à éditer change, le reste restant inchangé.
De plus, Gemini peut mélanger les styles entre les photos. Par exemple, transformez des bottes de pluie en chaussures à imprimé floral ou créez une robe à motif papillon.
Course à la création d'images IA entre géants de la technologie
La mise à niveau de Google intervient alors que la guerre des images IA s'intensifie. OpenAI avait précédemment lancé GPT-4o, capable de générer des images directement, et avait fait le buzz avec une série de mèmes inspirés du Studio Ghibli. Le PDG Sam Altman a révélé que le nombre d'utilisateurs avait tellement augmenté que les GPU de l'entreprise avaient « failli fondre ».
Pour suivre le rythme, Meta a annoncé un partenariat avec Midjourney, tandis que la startup allemande Black Forest Labs avec son modèle FLUX domine de nombreux classements.

Google espère que Gemini comblera l'écart avec ChatGPT. Gemini compte actuellement 450 millions d'utilisateurs mensuels, selon le PDG Sundar Pichai, loin derrière ChatGPT, qui compte plus de 700 millions d'utilisateurs hebdomadaires.
Brichtova a expliqué que Gemini est conçu pour des scénarios réels, de la visualisation de salons et de jardins à la création de photos divertissantes. Le modèle possède une meilleure connaissance du monde et peut combiner plusieurs photos et palettes de couleurs en un seul rendu.
Cependant, Google impose également des limites strictes. Toutes les images générées comportent un filigrane clair et un signe distinctif caché dans les métadonnées. L'entreprise interdit formellement la création d'images sensibles sans autorisation afin de prévenir les abus de deepfake.
Google s'était déjà excusé pour les images historiques inexactes de Gemini. Cette fois, l'entreprise estime avoir trouvé un équilibre entre créativité et sécurité. « Nous souhaitons que les utilisateurs soient créatifs, mais tout n'est pas permis », a souligné Brichtova.
Avec Gemini 2.5 Flash Image, Google parie sur l'amélioration de l'expérience d'édition de photos par IA, dans l'espoir de fidéliser les anciens utilisateurs et d'en attirer de nouveaux dans une course technologique féroce avec OpenAI, Meta et d'autres concurrents.
(Selon TechCrunch, Tom's Guide)

Source : https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html
Comment (0)