Как работает генератор изображений на основе ИИ?
Генераторы изображений на основе искусственного интеллекта используют модели машинного обучения, которые обрабатывают введенный пользователем текст и генерируют одно или несколько изображений, соответствующих описанию. Обучение таких моделей требует огромных наборов данных, содержащих миллионы изображений.
Создавать изображения с помощью ИИ становится проще. Фото: Ijnet
Хотя ни Midjourney, ни DALL-E 2 публично не раскрывают принципы работы своих алгоритмов, большинство генераторов изображений на основе ИИ используют процесс, называемый диффузией. Диффузионные модели работают, добавляя случайный «шум» к обучающим данным, а затем обучаясь реконструировать данные, удаляя шумовые фрагменты. Модель повторяет этот процесс, пока не создаст изображение, соответствующее входным данным.
Это отличается от крупных языковых моделей, таких как ChatGPT. Крупные языковые модели обучаются на немаркированных текстовых данных, которые они анализируют для изучения языковых шаблонов и генерации ответов, подобных человеческим.
В генеративном ИИ входные данные влияют на выходные. Если пользователь указывает, что хочет включить в изображение только людей с определённым цветом кожи или полом, модель учитывает это.
Однако, помимо этого, модель также будет склонна возвращать по умолчанию определённые изображения. Это часто является следствием недостатка разнообразия в обучающих данных.
В недавнем исследовании изучалось , как Midjourney визуализирует, казалось бы, общие термины, включая специализированные профессии в сфере СМИ (например, «аналитик новостей», «комментатор новостей» и «проверяльщик фактов»), а также более общие профессии (например, «журналист», «репортер», «журналистика»).
Исследование началось в августе прошлого года, и результаты были повторно обработаны через шесть месяцев, чтобы оценить, насколько улучшилась система за это время. В общей сложности за это время исследователи проанализировали более 100 изображений, сгенерированных ИИ.
Эйджизм и сексизм
В некоторых профессиях старейшинами всегда являются мужчины. Фото: IJN
Для неконкретных должностей Midjourney показывает только изображения молодых мужчин и женщин. Для определённых должностей отображаются как молодые, так и пожилые люди, но пожилые люди всегда мужчины.
Эти результаты неявно подкрепляют ряд стереотипов, включая предположение о том, что пожилые люди не работают на неспециализированных должностях, что только пожилые мужчины подходят для профессиональной работы и что менее специализированная работа, как правило, предназначена для женщин.
Также заметны различия в том, как представляют мужчин и женщин. Например, женщины выглядят моложе и без морщин, в то время как мужчинам «позволено» иметь морщины.
Кроме того, искусственный интеллект, по-видимому, представляет гендер как бинарное понятие, а не демонстрирует примеры более гибкого гендерного выражения.
Расовые предрассудки
На изображениях «репортёров» или «журналистов» часто изображены только белые люди. Фото: IJN
Все изображения, полученные по запросам типа «журналист» и «репортер», содержат только изображения белых людей.
Это может быть следствием отсутствия разнообразия и недостаточной репрезентативности базовых данных для обучения ИИ.
Классизм и консерватизм
Все персонажи на изображении также имеют «консервативную» внешность. Например, ни у кого из них нет татуировок, пирсинга, необычных причёсок или других признаков, отличающих их от традиционных изображений.
Многие также носят официальную одежду, такую как рубашки и костюмы. Это отражает классовые ожидания. Хотя это может быть уместно для некоторых ролей, например, телеведущих, это не обязательно отражает то, как обычно одеваются репортёры или журналисты.
Урбанизм
Все изображения по умолчанию размещены в городе, хотя географической привязки нет. Фото: IJN
Несмотря на отсутствие указания местоположения или географического контекста, изображения, полученные с помощью ИИ, включали городские пространства, такие как небоскребы или оживлённые улицы. Это неверно, поскольку чуть более половины населения мира живёт в городах.
Устаревший
На изображениях работников СМИ присутствуют устаревшие технологии, такие как пишущие машинки, принтеры и старинные камеры.
Поскольку сегодня многие специалисты выглядят одинаково, ИИ, по-видимому, использует более дифференцированные технологии (включая устаревшие и неиспользуемые), чтобы сделать описываемые роли более четкими.
Поэтому, если вы создаёте собственные изображения с помощью ИИ, учитывайте потенциальную предвзятость при описании. В противном случае вы можете непреднамеренно усилить вредные стереотипы, которые общество десятилетиями пыталось развеять.
Хоанг Тон (по данным IJN)
Источник
Комментарий (0)