(CLO) Компания Google только что запустила новый инструмент искусственного интеллекта (ИИ) под названием «Whisk», позволяющий пользователям загружать фотографии для получения сгенерированных ИИ комбинированных изображений, даже если пользователь не вводит никакого текста.
Whisk использует ИИ для объединения темы, контекста и стиля загруженной фотографии, создавая новое и более уникальное изображение.
Google описывает Whisk как «креативный инструмент», который помогает пользователям быстро генерировать новые визуальные идеи, не требуя профессиональных навыков редактирования фотографий. По словам Google, это не традиционный редактор изображений, а скорее увлекательный инструмент на основе искусственного интеллекта, призванный стимулировать творческие способности и быстро находить новые идеи .
Когда пользователь загружает фотографию, Whisk использует комбинацию сервиса искусственного интеллекта Google, Gemini и технологии Imagen 3 — инструмента, создающего изображения из текста, который Google приобрела у DeepMind.
Gemini проанализирует фотографию и создаст подпись, затем Imagen 3 творчески объединит элементы этой фотографии, сохраняя «суть» объекта, а не копируя его в точности.
Интерфейс инструмента «Венчик». Скриншот.
Это означает, что конечный результат может не быть на 100% идентичным исходному изображению. Например, рост, причёска или тон кожи людей на новом изображении могут отличаться от оригинала. Тем не менее, пользователи по-прежнему могут корректировать исходную информацию, менять сцену, стиль или объединять несколько людей для создания разных изображений.
Whisk может создавать изображения не только из текста, но и из необработанных изображений, расширяя творческие возможности без необходимости иметь опыт редактирования фотографий. «Whisk разработан, чтобы помочь пользователям творчески комбинировать темы, контексты и стили, позволяя им исследовать визуально, а не скрупулезно редактировать каждый пиксель», — сказал Томас Илич, директор по управлению продуктами в Google Labs.
Хотя Whisk находится на ранней стадии разработки, инструмент уже запущен в виде веб-сайта в Google Labs и теперь доступен пользователям в США.
Дэн Айвс, управляющий директор и старший аналитик Wedbush Securities, заявил, что Whisk знаменует собой очередной «момент демонстрации силы» для Google в технологической гонке.
Айвз также отметил, что DeepMind, лаборатория искусственного интеллекта, приобретённая Google в 2014 году, является ключевым активом, помогающим Google сохранять свои позиции в сфере искусственного интеллекта. Продукты на базе ИИ, включая Whisk, являются ключевой частью стратегии Google по разработке продуктов на ближайшие годы, и ожидается, что к 2025 году будет выпущено несколько новых продуктов.
Инструмент Whisk открывает новые возможности использования ИИ для создания креативных продуктов с минимальным вмешательством пользователя. Это демонстрирует прогресс ИИ в понимании и творческом комбинировании визуальных элементов.
Whisk является частью растущей тенденции среди крупных технологических компаний, включая Google и OpenAI, по разработке ИИ-инструментов для взаимодействия с потребителями, которые направлены на создание нового творческого опыта, включая создание изображений, текста и видео . OpenAI также недавно представила генератор текста в видео под названием Sora, который является прямым конкурентом Whisk.
Нгок Ань (по данным CNN, The Verge, ZDNET)
Источник: https://www.congluan.vn/google-ra-mat-cong-cu-tao-hinh-anh-ai-tu-hinh-anh-that-post326441.html
Комментарий (0)