Обновление Google Gemini использует модель изображения «нанобанан», разработанную Google DeepMind. Функция теперь доступна по всему миру как для бесплатных, так и для платных пользователей. Её главное преимущество — способность сохранять единообразие лиц и объектов на фотографиях, с чем часто сталкиваются другие инструменты ИИ.
«Мы значительно улучшили качество изображений и способность модели следовать инструкциям», — сказала Николь Брихтова, руководитель отдела разработки продуктов DeepMind. «Это обновление делает редактирование более плавным, а результаты достаточно хороши для использования в любых целях».
Сохраняйте «себя» на каждой фотографии
Одна из причин, по которой фотографии, созданные с помощью искусственного интеллекта, выглядят поддельными, — это искажение мелких деталей. Google заявляет, что Gemini решает эту проблему, позволяя изменить всю сцену, сохраняя лицо и его выражение. Вы можете попробовать новую причёску, изменить цвет стены или привести в кадр домашнего питомца, не беспокоясь об искажении изображения.

Gemini также позволяет загружать несколько фотографий и объединять их в одну, например, объединяя портрет с вашим котом, можно создать фотографию, на которой вы вдвоем едете по дороге.
Gemini поддерживает многоповоротное редактирование, позволяя пользователям добавлять в пространство каждую деталь: от обоев и мебели до цвета краски. Преимущество в том, что изменяется только та часть, которую нужно отредактировать, остальное остаётся прежним.
Кроме того, Близнецы умеют смешивать стили на фотографиях. Например, превратить резиновые сапоги в туфли с цветочным принтом или создать платье с узором в виде бабочек.
Гонка технологических гигантов в области создания изображений с помощью ИИ
Обновление Google произошло на фоне обострения войны за искусственный интеллект в области обработки изображений. Ранее OpenAI запустила GPT-4o, способный напрямую генерировать изображения, и он стал вирусным благодаря серии мемов в стиле Studio Ghibli. Генеральный директор Сэм Альтман рассказал, что число пользователей выросло настолько, что графические процессоры компании «чуть не расплавились».
Чтобы не отставать, Meta объявила о партнерстве с Midjourney, а немецкий стартап Black Forest Labs со своей моделью FLUX доминирует во многих чартах.

Google надеется, что Gemini сможет сократить разрыв с помощью ChatGPT. По словам генерального директора Сундара Пичаи, в настоящее время у Gemini 450 миллионов пользователей в месяц, что значительно меньше, чем у ChatGPT, у которого более 700 миллионов пользователей в неделю.
Брихтова отметила, что Gemini разработан для реальных сценариев, от визуализации гостиных и садов до создания развлекательных фотографий. Модель обладает более глубокими знаниями о мире и может объединять несколько фотографий и цветовых палитр в одну визуализацию.
Однако Google также устанавливает строгие ограничения. Все сгенерированные изображения имеют чёткий водяной знак и идентификационный знак, скрытый в метаданных. Компания строго запрещает создание конфиденциальных изображений без разрешения, чтобы предотвратить злоупотребление дипфейками.
Ранее Google уже приносила извинения за неточные исторические изображения в «Джемини». В этот раз компания считает, что ей удалось найти баланс между креативностью и безопасностью. «Мы хотим, чтобы пользователи проявляли творческий подход, но не всё дозволено», — подчеркнула Брихтова.
С выпуском Gemini 2.5 Flash Image компания Google делает ставку на улучшение возможностей редактирования фотографий с помощью ИИ, надеясь удержать старых пользователей и привлечь новых в жесткой технологической гонке с OpenAI, Meta и другими конкурентами.
(По данным TechCrunch, Tom's Guide)

Источник: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html
Комментарий (0)