كيف يعمل مولد الصور بالذكاء الاصطناعي؟
تستخدم مُولِّدات الصور القائمة على الذكاء الاصطناعي نماذج تعلُّم آلي تأخذ نصًا يُدخِله المستخدم، وتُولِّد صورةً واحدةً أو أكثر تُطابق الوصف. يتطلب تدريب هذه النماذج مجموعات بيانات ضخمة تضم ملايين الصور.
أصبح إنشاء الصور باستخدام الذكاء الاصطناعي أسهل. الصورة: Ijnet
في حين أن ميدجورني ودال-إي 2 لا يُفصحان علنًا عن آلية عمل خوارزمياتهما، فإن معظم مُولِّدات صور الذكاء الاصطناعي تستخدم عملية تُسمى الانتشار. تعمل نماذج الانتشار بإضافة "ضوضاء" عشوائية إلى بيانات التدريب، ثم تتعلم إعادة بناء البيانات بإزالة الأجزاء المُشوشة. يُكرِّر النموذج هذه العملية حتى يُنتج صورة تُطابق المُدخلات.
يختلف هذا عن نماذج اللغات الكبيرة مثل ChatGPT. تُدرّب نماذج اللغات الكبيرة على بيانات نصية غير مُسمّاة، ثم تُحلّلها لتعلّم أنماط اللغة وتوليد استجابات تُشبه استجابات البشر.
في الذكاء الاصطناعي التوليدي، تؤثر المدخلات على المخرجات. إذا حدد المستخدم أنه يريد فقط تضمين أشخاص بلون بشرة أو جنس معين في صورة، فسيأخذ النموذج ذلك في الاعتبار.
مع ذلك، بالإضافة إلى ذلك، يميل النموذج إلى إرجاع صور معينة افتراضيًا. ويعود ذلك غالبًا إلى نقص التنوع في بيانات التدريب.
استكشفت دراسة حديثة كيف يقوم Midjourney بتصور مصطلحات تبدو عامة، بما في ذلك المهن الإعلامية المتخصصة (مثل "محلل أخبار"، و"معلق أخبار"، و"مدقق حقائق") والمهن الأكثر عمومية (مثل "صحفي"، و"مراسل"، و"صحافة").
بدأت الدراسة في أغسطس الماضي، وأُعيدت دراسة النتائج بعد ستة أشهر لمعرفة مدى تحسّن النظام خلال تلك الفترة. في المجمل، حلل الباحثون أكثر من 100 صورة مُولّدة بالذكاء الاصطناعي خلال تلك الفترة.
التمييز على أساس السن والتمييز على أساس الجنس
في بعض المهن، يكون كبار السن دائمًا رجالًا. الصورة: IJN
بالنسبة للمسميات الوظيفية غير المحددة، يعرض موقع Midjourney صورًا لرجال ونساء أصغر سنًا فقط. أما بالنسبة للأدوار المحددة، فيُعرض كلٌّ من الشباب وكبار السن، ولكن كبار السن هم دائمًا من الذكور.
وتعزز هذه النتائج ضمناً عدداً من الصور النمطية، بما في ذلك الافتراض بأن كبار السن لا يعملون في وظائف غير متخصصة، وأن الرجال الأكبر سناً فقط هم المناسبون للعمل المهني، وأن العمل الأقل تخصصاً يقتصر عادة على النساء.
هناك أيضًا اختلافات ملحوظة في طريقة تقديم الرجال والنساء. على سبيل المثال، النساء أصغر سنًا وخاليات من التجاعيد، بينما يُسمح للرجال بظهور التجاعيد.
ويبدو أيضًا أن الذكاء الاصطناعي يمثل الجنس باعتباره ثنائيًا، بدلاً من إظهار أمثلة للتعبير الأكثر مرونة عن الجنس.
التحيز العنصري
غالبًا ما تُظهر صور "المراسلين" أو "الصحفيين" أشخاصًا بيضًا فقط. الصورة: IJN
جميع الصور التي تم إرجاعها لمصطلحات مثل "صحفي" و"مراسل" تُظهر صورًا لأشخاص بيض فقط.
وقد يعكس هذا الافتقار إلى التنوع ونقص التمثيل في بيانات التدريب الأساسية للذكاء الاصطناعي.
الطبقية والمحافظة
جميع الشخصيات في الصورة لها مظهر "محافظ". على سبيل المثال، لا يمتلك أيٌّ منها وشمًا، أو ثقوبًا، أو تسريحات شعر غير مألوفة، أو أي سمات أخرى تميزها عن الصور التقليدية.
يرتدي الكثيرون أيضًا ملابس رسمية كالقمصان والبدلات. هذه الملابس تُشير إلى توقعات الطبقة الاجتماعية. قد يكون هذا مناسبًا لبعض الأدوار، كمقدمي البرامج التلفزيونية، ولكنه لا يعكس بالضرورة ملابس المراسلين أو الصحفيين بشكل عام.
التخطيط الحضري
جميع الصور مُعَيَّنة افتراضيًا في المدينة، على الرغم من عدم وجود مرجع جغرافي. الصورة: IJN
رغم عدم تحديد أي موقع أو سياق جغرافي، تضمنت الصور التي أعادها الذكاء الاصطناعي مساحات حضرية، مثل ناطحات السحاب أو الشوارع المزدحمة. وهذا غير صحيح، إذ يعيش أكثر من نصف سكان العالم في المدن.
عفا عليها الزمن
تتضمن صور العاملين في مجال الإعلام تقنيات قديمة مثل الآلات الكاتبة والطابعات والكاميرات القديمة.
وبما أن العديد من المهنيين يتشابهون اليوم، يبدو أن الذكاء الاصطناعي يعتمد على تقنيات أكثر تمايزًا (بما في ذلك التقنيات القديمة وغير المستخدمة) لجعل الأدوار الموصوفة أكثر تميزًا.
لذا، إذا كنت تُنشئ صورك الخاصة بالذكاء الاصطناعي، فضع في اعتبارك التحيزات المحتملة عند كتابة الأوصاف. وإلا، فقد تُرسّخ، دون قصد، صورًا نمطية ضارة قضى المجتمع عقودًا في محاولة تبديدها.
هوانغ تون (وفقًا لـ IJN)
[إعلان 2]
مصدر
تعليق (0)