Google Gemini duce inteligența artificială la nivelul următor: schimbă fundalul, coafura și combină fotografiile cu o singură comandă

Actualizarea Google Gemini folosește modelul de imagine „nano banană” dezvoltat de Google DeepMind. Funcția este acum disponibilă la nivel global atât pentru utilizatorii gratuiți, cât și pentru cei plătiți. Cel mai mare punct forte al său este capacitatea de a menține consecvența fețelor și a obiectelor în fotografii, lucru cu care alte instrumente de inteligență artificială se confruntă adesea cu dificultăți.

„Am îmbunătățit cu adevărat calitatea imaginilor și capacitatea modelului de a urma instrucțiunile”, a declarat Nicole Brichtova, responsabilă de produs la DeepMind. „Această actualizare face editările mai fluide, iar rezultatele sunt suficient de bune pentru a fi utilizate în orice scop.”

Păstrează-ți „însăși”-ul în fiecare fotografie

Unul dintre lucrurile care fac ca fotografiile realizate cu inteligență artificială să pară false este distorsiunea detaliilor mici. Google spune că Gemini rezolvă această problemă, permițându-vă să schimbați întreaga scenă, păstrând în același timp fața și expresia feței. Puteți încerca o coafură nouă, puteți schimba culoarea peretelui sau puteți aduce un animal de companie în scenă fără a vă face griji cu privire la distorsiunea imaginii.

Îmbinați fotografiile împreună.gif — Îmbinați fotografii cu context nou din două imagini existente folosind Google Gemini. Sursa: Google

Gemini îți permite, de asemenea, să încarci mai multe fotografii pentru a le combina într-una singură, cum ar fi combinarea unui portret cu pisica ta pentru a crea o fotografie cu voi doi mergând împreună pe șosea.

Gemini acceptă editarea în mai multe rânduri, permițând utilizatorilor să adauge fiecare detaliu unui spațiu: de la tapet, mobilier, până la culoarea vopselei. Punctul forte este că doar partea care trebuie editată se schimbă, restul rămâne la fel.

În plus, Gemenii pot combina stiluri între fotografii. De exemplu, pot transforma cizmele de ploaie în pantofi cu imprimeu floral sau pot crea o rochie cu model fluture.

Cursa dintre giganții tehnologiei pentru crearea de imagini cu inteligență artificială

Actualizarea Google vine în contextul în care războaiele imagistice prin inteligență artificială se intensifică. OpenAI a lansat anterior GPT-4o, care poate genera imagini direct, și a devenit virală cu o serie de meme-uri în stil Studio Ghibli. CEO-ul Sam Altman a dezvăluit că numărul utilizatorilor a crescut atât de mult încât GPU-urile companiei „aproape s-au topit”.

Pentru a ține pasul, Meta a anunțat un parteneriat cu Midjourney, în timp ce startup-ul german Black Forest Labs, cu modelul său FLUX, domină multe topuri.

editare multi-turn.gif — Capacitățile de editare foto în mai mulți pași ale Google Gemini. Sursa: Google

Google speră că Gemini poate reduce decalajul față de ChatGPT. Gemini are în prezent 450 de milioane de utilizatori lunari, potrivit CEO-ului Sundar Pichai, mult în urma ChatGPT, care are peste 700 de milioane de utilizatori săptămânali.

Brichtova a spus că Gemini este conceput pentru scenarii din lumea reală, de la vizualizarea camerelor de zi și a grădinilor până la crearea de fotografii distractive. Modelul are o „cunoaștere a lumii ” mai bună și poate combina mai multe fotografii și palete de culori într-o singură randare.

Totuși, Google impune și limite stricte. Toate imaginile generate au un filigran clar și un semn de identificare ascuns în metadate. Compania interzice strict crearea de imagini sensibile fără permisiune pentru a preveni abuzul de deepfake.

Google și-a cerut anterior scuze pentru imaginile istorice inexacte ale Gemini. De data aceasta, compania consideră că a găsit un echilibru între creativitate și siguranță. „Vrem ca utilizatorii să fie creativi, dar nu totul este permis”, a subliniat Brichtova.

Cu Gemini 2.5 Flash Image, Google pariază pe îmbunătățirea experienței de editare foto cu ajutorul inteligenței artificiale, sperând să păstreze utilizatorii vechi și să atragă alții noi într-o cursă tehnologică acerbă cu OpenAI, Meta și alți competitori.

(Conform TechCrunch, Ghidul lui Tom)

Pentru 85 de milioane de VND per „creier”, Nvidia deschide calea pentru era oamenilor care creează roboți. Nvidia tocmai a lansat Jetson AGX Thor - un cip supranumit „creierul robotului”, capabil să ajute mașinile să vadă, să gândească și să acționeze ca oamenii, deschizând cursa inteligenței artificiale fizice pentru 3.499 USD.

Sursă: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html