Wie funktioniert der KI-Bildgenerator?
KI-basierte Bildgeneratoren nutzen maschinelle Lernmodelle, die aus vom Benutzer eingegebenem Text ein oder mehrere Bilder generieren, die der Beschreibung entsprechen. Das Training dieser Modelle erfordert riesige Datensätze mit Millionen von Bildern.
Die Bildgestaltung mit KI wird immer einfacher. Foto: Ijnet
Obwohl weder Midjourney noch DALL-E 2 die Funktionsweise ihrer Algorithmen öffentlich machen, verwenden die meisten KI-Bildgeneratoren einen Prozess namens Diffusion. Diffusionsmodelle fügen Trainingsdaten zufälliges „Rauschen“ hinzu und lernen dann, die Daten durch Entfernen der verrauschten Teile zu rekonstruieren. Das Modell wiederholt diesen Prozess, bis es ein Bild erzeugt, das mit der Eingabe übereinstimmt.
Dies unterscheidet sich von großen Sprachmodellen wie ChatGPT. Große Sprachmodelle werden anhand von unbeschrifteten Textdaten trainiert, die sie analysieren, um Sprachmuster zu erlernen und menschenähnliche Antworten zu generieren.
Bei der generativen KI beeinflusst die Eingabe die Ausgabe. Gibt ein Nutzer beispielsweise an, dass er nur Personen mit einer bestimmten Hautfarbe oder einem bestimmten Geschlecht in einem Bild zeigen möchte, berücksichtigt das Modell dies.
Darüber hinaus neigt das Modell jedoch auch dazu, standardmäßig bestimmte Bilder zurückzugeben. Dies ist häufig auf einen Mangel an Vielfalt in den Trainingsdaten zurückzuführen.
In einer aktuellen Studiewurde untersucht , wie Midjourney scheinbar generische Begriffe visualisiert, darunter spezialisierte Medienberufe (wie „Nachrichtenanalyst“, „Nachrichtenkommentator“ und „Faktenprüfer“) und allgemeinere Berufe (wie „Journalist“, „Reporter“, „Journalismus“).
Die Studie begann im vergangenen August. Sechs Monate später wurden die Ergebnisse erneut ausgewertet, um zu sehen, wie sich das System in dieser Zeit verbessert hatte. Insgesamt analysierten die Forscher in diesem Zeitraum über 100 KI-generierte Bilder.
Altersdiskriminierung und Sexismus
In bestimmten Berufen sind die Ältesten immer Männer. Foto: IJN
Bei unspezifischen Berufsbezeichnungen zeigt Midjourney nur Bilder von jüngeren Männern und Frauen. Bei spezifischen Rollen werden sowohl jüngere als auch ältere Personen angezeigt, wobei die älteren Personen immer männlich sind.
Diese Ergebnisse verstärken implizit eine Reihe von Stereotypen, darunter die Annahme, dass ältere Menschen nicht in nicht spezialisierten Positionen arbeiten, dass nur ältere Männer für eine professionelle Arbeit geeignet sind und dass weniger spezialisierte Arbeit typischerweise Frauen vorbehalten ist.
Auch im Erscheinungsbild von Männern und Frauen gibt es auffällige Unterschiede. So sind Frauen beispielsweise jünger und faltenfrei, während Männer Falten haben „dürfen“.
KI scheint das Geschlecht auch binär darzustellen, anstatt Beispiele für einen fließenderen Ausdruck des Geschlechts zu zeigen.
Rassistische Vorurteile
Bilder für „Reporter“ oder „Journalisten“ zeigen oft nur weiße Menschen. Foto: IJN
Alle Bilder, die für Begriffe wie „Journalist“, „Reporter“ zurückgegeben werden, zeigen nur Bilder von weißen Menschen.
Dies kann auf einen Mangel an Vielfalt und Unterrepräsentation in den der KI zugrunde liegenden Trainingsdaten zurückzuführen sein.
Klassismus und Konservatismus
Alle Figuren im Bild haben zudem ein „konservatives“ Erscheinungsbild. So weisen sie beispielsweise keine Tätowierungen, Piercings, ungewöhnliche Frisuren oder sonstige Merkmale auf, die sie von traditionellen Darstellungen unterscheiden würden.
Viele Menschen tragen auch formelle Kleidung wie Hemden und Anzüge. Diese sind Indikatoren für die sozialen Erwartungen. Dies mag zwar für bestimmte Rollen, wie beispielsweise Fernsehmoderatoren, angemessen sein, spiegelt aber nicht unbedingt die allgemeine Kleidung von Reportern oder Journalisten wider.
Städtebau
Die Bilder sind standardmäßig alle in der Stadt angesiedelt, obwohl kein geografischer Bezug besteht. Foto: IJN
Obwohl weder ein Ort noch ein geografischer Kontext angegeben wurde, enthielten die von der KI zurückgegebenen Bilder städtische Räume wie Wolkenkratzer oder belebte Straßen. Dies stimmt jedoch nicht, da etwas mehr als die Hälfte der Weltbevölkerung in Städten lebt.
Veraltet
Auf den Bildern von Medienschaffenden sind veraltete Technologien wie Schreibmaschinen, Drucker und Vintage-Kameras zu sehen.
Da viele Berufsgruppen heute gleich aussehen, scheint die KI auf differenziertere Technologien zurückzugreifen (einschließlich veralteter und ungenutzter), um die beschriebenen Rollen deutlicher hervorzuheben.
Wenn Sie also Ihre eigenen KI-Bilder erstellen, berücksichtigen Sie bei der Beschreibung mögliche Voreingenommenheiten. Andernfalls verstärken Sie möglicherweise unbeabsichtigt schädliche Stereotypen, die die Gesellschaft seit Jahrzehnten zu zerstreuen versucht.
Hoang Ton (laut IJN)
[Anzeige_2]
Quelle
Kommentar (0)