Обновление Google Gemini использует модель изображения «нанобанан», разработанную Google DeepMind. Функция теперь доступна по всему миру как для бесплатных, так и для платных пользователей. Её главное преимущество — способность сохранять единообразие лиц и объектов на фотографиях, с чем часто сталкиваются другие инструменты ИИ.

«Мы значительно улучшили качество изображений и способность модели следовать инструкциям», — сказала Николь Брихтова, руководитель отдела разработки продуктов DeepMind. «Это обновление делает редактирование более плавным, а результаты достаточно хороши для использования в любых целях».

Сохраняйте «себя» на каждой фотографии

Одна из причин, по которой фотографии, созданные с помощью искусственного интеллекта, выглядят поддельными, — это искажение мелких деталей. Google заявляет, что Gemini решает эту проблему, позволяя изменить всю сцену, сохраняя лицо и его выражение. Вы можете попробовать новую причёску, изменить цвет стены или привести в кадр домашнего питомца, не беспокоясь об искажении изображения.

Объединить фотографии вместе.gif
Объедините фотографии с новым контекстом из двух существующих изображений с помощью Google Gemini. Источник: Google

Gemini также позволяет загружать несколько фотографий и объединять их в одну, например, объединяя портрет с вашим котом, можно создать фотографию, на которой вы вдвоем едете по дороге.

Gemini поддерживает многоповоротное редактирование, позволяя пользователям добавлять в пространство каждую деталь: от обоев и мебели до цвета краски. Преимущество в том, что изменяется только та часть, которую нужно отредактировать, остальное остаётся прежним.

Кроме того, Близнецы умеют смешивать стили на фотографиях. Например, превратить резиновые сапоги в туфли с цветочным принтом или создать платье с узором в виде бабочек.

Гонка технологических гигантов в области создания изображений с помощью ИИ

Обновление Google произошло на фоне обострения войны за искусственный интеллект в области обработки изображений. Ранее OpenAI запустила GPT-4o, способный напрямую генерировать изображения, и он стал вирусным благодаря серии мемов в стиле Studio Ghibli. Генеральный директор Сэм Альтман рассказал, что число пользователей выросло настолько, что графические процессоры компании «чуть не расплавились».

Чтобы не отставать, Meta объявила о партнерстве с Midjourney, а немецкий стартап Black Forest Labs со своей моделью FLUX доминирует во многих чартах.

многооборотное редактирование.gif
Многошаговые возможности редактирования фотографий в Google Gemini. Источник: Google

Google надеется, что Gemini сможет сократить разрыв с помощью ChatGPT. По словам генерального директора Сундара Пичаи, в настоящее время у Gemini 450 миллионов пользователей в месяц, что значительно меньше, чем у ChatGPT, у которого более 700 миллионов пользователей в неделю.

Брихтова отметила, что Gemini разработан для реальных сценариев, от визуализации гостиных и садов до создания развлекательных фотографий. Модель обладает более глубокими знаниями о мире и может объединять несколько фотографий и цветовых палитр в одну визуализацию.

Однако Google также устанавливает строгие ограничения. Все сгенерированные изображения имеют чёткий водяной знак и идентификационный знак, скрытый в метаданных. Компания строго запрещает создание конфиденциальных изображений без разрешения, чтобы предотвратить злоупотребление дипфейками.

Ранее Google уже приносила извинения за неточные исторические изображения в «Джемини». В этот раз компания считает, что ей удалось найти баланс между креативностью и безопасностью. «Мы хотим, чтобы пользователи проявляли творческий подход, но не всё дозволено», — подчеркнула Брихтова.

С выпуском Gemini 2.5 Flash Image компания Google делает ставку на улучшение возможностей редактирования фотографий с помощью ИИ, надеясь удержать старых пользователей и привлечь новых в жесткой технологической гонке с OpenAI, Meta и другими конкурентами.

(По данным TechCrunch, Tom's Guide)

За 85 миллионов донгов за «мозг» Nvidia прокладывает путь к эпохе создания роботов людьми. Nvidia только что выпустила Jetson AGX Thor — чип, получивший название «роботизированный мозг», способный помочь машинам видеть, думать и действовать как люди, открывая гонку за физический ИИ по цене 3499 долларов США.

Источник: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html