Google Gemini-oppgraderingen bruker bildemodellen «nano banana» utviklet av Google DeepMind. Funksjonen er nå tilgjengelig globalt for både gratis- og betalte brukere. Den største styrken er evnen til å holde ansikter og objekter konsistente i bilder, noe andre AI-verktøy ofte sliter med.
«Vi har virkelig forbedret kvaliteten på bildene og modellens evne til å følge instruksjoner», sa Nicole Brichtova, produktansvarlig hos DeepMind. «Denne oppdateringen gjør redigeringen mer sømløs, og resultatene er gode nok til å kunne brukes til ethvert formål.»
Ha «deg» på hvert bilde
En av tingene som får AI-bilder til å se falske ut, er at små detaljer blir forvrengt. Google sier at Gemini løser dette problemet, slik at du kan endre hele scenen samtidig som ansiktet og uttrykket beholdes. Du kan prøve en ny frisyre, endre fargen på veggen eller ta med et kjæledyr inn i scenen uten å bekymre deg for bildeforvrengning.

Gemini lar deg også laste opp flere bilder som du kan kombinere til ett, for eksempel ved å kombinere et portrett med katten din for å lage et bilde av dere to som kjører sammen på veien.
Gemini støtter redigering i flere omganger, slik at brukerne kan legge til alle detaljer i et rom: fra tapet og møbler til malingsfarge. Plusspoenget er at bare den delen som må redigeres endres, resten forblir den samme.
I tillegg kan Gemini blande stiler mellom bilder. For eksempel gjøre gummistøvler om til sko med blomstertrykk, eller lage en sommerfuglmønstret kjole.
AI-bildeskaping Kappløp mellom teknologigiganter
Googles oppgradering kommer samtidig som krigene om AI-avbildning tilspisser seg. OpenAI lanserte tidligere GPT-4o, som kan generere bilder direkte, og gikk viralt med en serie memer i Studio Ghibli-stil. Administrerende direktør Sam Altman avslørte at antallet brukere økte så mye at selskapets GPU-er «nesten smeltet».
For å holde tritt annonserte Meta et samarbeid med Midjourney, mens den tyske oppstartsbedriften Black Forest Labs med sin FLUX-modell dominerer mange hitlister.

Google håper Gemini kan tette gapet med ChatGPT. Gemini har for tiden 450 millioner månedlige brukere, ifølge administrerende direktør Sundar Pichai, langt bak ChatGPT, som har mer enn 700 millioner ukentlige brukere.
Brichtova sa at Gemini er designet for virkelige scenarier, fra å visualisere stuer og hager til å lage underholdende bilder. Modellen har bedre « verdenskunnskap » og kan kombinere flere bilder og fargepaletter i én enkelt gjengivelse.
Google har imidlertid også strenge grenser. Alle genererte bilder har et tydelig vannmerke og et identifikasjonsmerke skjult i metadataene. Selskapet forbyr strengt opprettelse av sensitive bilder uten tillatelse for å forhindre misbruk av deepfakes.
Google har tidligere beklaget Gemini sine unøyaktige historiske bilder. Denne gangen mener selskapet at de har funnet en balanse mellom kreativitet og sikkerhet. «Vi ønsker at brukerne skal være kreative, men ikke alt er tillatt», understreket Brichtova.
Med Gemini 2.5 Flash Image satser Google på å forbedre AI-bilderedigeringsopplevelsen, i håp om å beholde gamle brukere og tiltrekke seg nye i et hardt teknologikappløp med OpenAI, Meta og andre konkurrenter.
(Ifølge TechCrunch, Toms guide)

Kilde: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html
Kommentar (0)