Das Google Gemini-Upgrade nutzt das von Google DeepMind entwickelte Bildmodell „Nano Banana“. Die Funktion ist ab sofort weltweit sowohl für kostenlose als auch für kostenpflichtige Nutzer verfügbar. Ihre größte Stärke ist die Fähigkeit, Gesichter und Objekte in Fotos konsistent zu halten – ein Aspekt, mit dem andere KI-Tools oft zu kämpfen haben.

„Wir haben die Bildqualität und die Fähigkeit des Modells, Anweisungen zu befolgen, deutlich verbessert“, sagte Nicole Brichtova, Produktleiterin bei DeepMind. „Dieses Update macht die Bearbeitung nahtloser und die Ergebnisse sind gut genug, um für jeden Zweck verwendet zu werden.“

Behalten Sie „Sie“ auf jedem Foto

KI-Fotos wirken unter anderem dadurch unecht, dass kleine Details verzerrt werden. Laut Google löst Gemini dieses Problem, indem es ermöglicht, die gesamte Szene zu verändern, ohne dass Gesicht und Ausdruck verloren gehen. Sie können eine neue Frisur ausprobieren, die Wandfarbe ändern oder ein Haustier in die Szene bringen, ohne sich um Bildverzerrungen sorgen zu müssen.

Fotos zusammenfügen.gif
Fügen Sie mit Google Gemini Fotos mit neuem Kontext aus zwei vorhandenen Bildern zusammen. Quelle: Google

Mit Gemini können Sie auch mehrere Fotos hochladen und zu einem kombinieren. So können Sie beispielsweise ein Porträt mit Ihrer Katze kombinieren, um ein Foto von Ihnen beiden beim gemeinsamen Fahren auf der Straße zu erstellen.

Gemini unterstützt die mehrstufige Bearbeitung, sodass Benutzer einem Raum jedes Detail hinzufügen können: von Tapeten über Möbel bis hin zur Farbe. Der Vorteil: Nur der zu bearbeitende Teil wird geändert, der Rest bleibt unverändert.

Darüber hinaus kann Gemini Stile zwischen Fotos mischen. Verwandeln Sie beispielsweise Gummistiefel in Schuhe mit Blumenmuster oder kreieren Sie ein Kleid mit Schmetterlingsmuster.

Wettlauf der Technologiegiganten um die KI-Bilderzeugung

Googles Upgrade kommt zu einem Zeitpunkt, an dem sich der Kampf um KI-Bildgebung verschärft. OpenAI hatte zuvor GPT-4o auf den Markt gebracht, das Bilder direkt generieren kann und mit einer Reihe von Memes im Stil von Studio Ghibli viral ging. CEO Sam Altman gab bekannt, dass die Nutzerzahlen so stark gestiegen seien, dass die GPUs des Unternehmens „fast geschmolzen“ seien.

Um mithalten zu können, kündigte Meta eine Partnerschaft mit Midjourney an, während das deutsche Startup Black Forest Labs mit seinem FLUX-Modell viele Charts dominiert.

Multi-Turn-Bearbeitung.gif
Die mehrstufigen Fotobearbeitungsfunktionen von Google Gemini. Quelle: Google

Google hofft, dass Gemini die Lücke zu ChatGPT schließen kann. Laut CEO Sundar Pichai hat Gemini derzeit 450 Millionen monatliche Nutzer und liegt damit weit hinter ChatGPT, das mehr als 700 Millionen wöchentliche Nutzer hat.

Brichtova sagte, Gemini sei für reale Szenarien konzipiert, von der Visualisierung von Wohnzimmern und Gärten bis hin zur Erstellung unterhaltsamer Fotos. Das Modell verfüge über ein besseres „ Weltwissen “ und könne mehrere Fotos und Farbpaletten in einem einzigen Rendering kombinieren.

Google setzt jedoch auch strenge Grenzen. Alle generierten Bilder sind mit einem deutlichen Wasserzeichen und einer in den Metadaten versteckten Identifizierungskennung versehen. Das Unternehmen verbietet die Erstellung sensibler Bilder ohne Erlaubnis strikt, um Deepfake-Missbrauch zu verhindern.

Google hatte sich bereits zuvor für die ungenaue historische Bilddarstellung von Gemini entschuldigt. Diesmal glaubt das Unternehmen, ein Gleichgewicht zwischen Kreativität und Sicherheit gefunden zu haben. „Wir möchten, dass die Nutzer kreativ sind, aber nicht alles ist erlaubt“, betonte Brichtova.

Mit Gemini 2.5 Flash Image setzt Google darauf, das KI-basierte Fotobearbeitungserlebnis zu verbessern und hofft, in einem erbitterten Technologierennen mit OpenAI, Meta und anderen Wettbewerbern alte Benutzer zu halten und neue zu gewinnen.

(Laut TechCrunch, Tom's Guide)

Für 85 Millionen VND pro „Gehirn“ ebnet Nvidia den Weg für die Ära der menschlichen Roboterherstellung. Nvidia hat gerade Jetson AGX Thor auf den Markt gebracht – einen Chip, der als „Robotergehirn“ bezeichnet wird und Maschinen dabei helfen kann, wie Menschen zu sehen, zu denken und zu handeln. Der Chip eröffnet das Rennen um die physische KI für 3.499 USD.

Quelle: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html