Google Gemini lleva la IA al siguiente nivel: cambia el fondo, el peinado y combina fotos con un solo comando

La actualización de Google Gemini utiliza el modelo de imagen "nano banana" desarrollado por Google DeepMind. Esta función ya está disponible globalmente para usuarios gratuitos y de pago. Su mayor ventaja es su capacidad para mantener la coherencia entre rostros y objetos en las fotos, algo con lo que otras herramientas de IA suelen tener dificultades.

“Hemos mejorado mucho la calidad de las imágenes y la capacidad del modelo para seguir instrucciones”, afirmó Nicole Brichtova, jefa de producto de DeepMind. “Esta actualización facilita la edición y los resultados son lo suficientemente buenos como para cualquier propósito”.

Mantén “tú” en cada foto

Una de las cosas que hace que las fotos con IA parezcan falsas es que se distorsionan pequeños detalles. Google afirma que Gemini soluciona este problema, permitiéndote cambiar toda la escena manteniendo el rostro y la expresión intactos. Puedes probar un nuevo peinado, cambiar el color de la pared o traer una mascota a la escena sin preocuparte por la distorsión de la imagen.

Fusionar fotos.gif — Fusiona fotos con nuevo contexto a partir de dos imágenes existentes con Google Gemini. Fuente: Google

Gemini también te permite cargar múltiples fotos para combinarlas en una, como por ejemplo combinar un retrato con tu gato para crear una foto de los dos viajando juntos en la carretera.

Gemini admite la edición multi-turno, lo que permite a los usuarios añadir todos los detalles a un espacio: desde el papel tapiz y los muebles hasta el color de la pintura. La ventaja es que solo cambia la parte que necesita editarse; el resto permanece igual.

Además, Gemini permite combinar estilos entre fotos. Por ejemplo, puedes convertir unas botas de lluvia en zapatos con estampado floral o crear un vestido con estampado de mariposas.

La carrera por la creación de imágenes con IA entre gigantes tecnológicos

La actualización de Google llega en un momento en que la guerra de imágenes con IA se intensifica. OpenAI lanzó previamente GPT-4o, que puede generar imágenes directamente, y se viralizó con una serie de memes al estilo Studio Ghibli. El director ejecutivo, Sam Altman, reveló que el número de usuarios aumentó tanto que las GPU de la compañía "casi se fundieron".

Para seguir el ritmo, Meta anunció una asociación con Midjourney, mientras que la startup alemana Black Forest Labs con su modelo FLUX domina muchos gráficos.

edición multi-turno.gif — Funciones de edición de fotos en varios pasos de Google Gemini. Fuente: Google

Google espera que Gemini pueda acortar distancias con ChatGPT. Gemini cuenta actualmente con 450 millones de usuarios mensuales, según el director ejecutivo Sundar Pichai, muy por detrás de ChatGPT, que cuenta con más de 700 millones de usuarios semanales.

Brichtova afirmó que Gemini está diseñado para escenarios del mundo real, desde visualizar salas de estar y jardines hasta crear fotos divertidas. El modelo tiene un mejor conocimiento del mundo y puede combinar múltiples fotos y paletas de colores en una sola representación.

Sin embargo, Google también impone límites estrictos. Todas las imágenes generadas tienen una marca de agua transparente y una marca de identificación oculta en los metadatos. La compañía prohíbe estrictamente la creación de imágenes sensibles sin permiso para evitar el abuso de deepfakes.

Google ya se disculpó por la inexactitud de las imágenes históricas de Gemini. Esta vez, la compañía cree haber logrado un equilibrio entre creatividad y seguridad. "Queremos que los usuarios sean creativos, pero no todo está permitido", enfatizó Brichtova.

Con Gemini 2.5 Flash Image, Google apuesta a elevar la experiencia de edición de fotografías con IA, con la esperanza de retener a los antiguos usuarios y atraer a otros nuevos en una feroz carrera tecnológica con OpenAI, Meta y otros competidores.

(Según TechCrunch, Guía de Tom)

Por 85 millones de VND por "cerebro", Nvidia sienta las bases para la era en la que los humanos crearán robots. Nvidia acaba de lanzar Jetson AGX Thor, un chip conocido como el "cerebro robótico", capaz de ayudar a las máquinas a ver, pensar y actuar como humanos, abriendo la carrera de la IA física por 3499 USD.

Fuente: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html