AI เรียนรู้ที่จะโกหกอย่างมีชั้นเชิงมากขึ้นเมื่อถูกลงโทษ

ตั้งแต่เปิดตัวสู่สาธารณะในช่วงปลายปี 2022 โมเดลภาษาขนาดใหญ่ (LLM) เช่น ChatGPT ได้แสดงให้เห็นด้านมืดที่น่ากังวลซ้ำแล้วซ้ำเล่า ตั้งแต่การโกหก การโกง การหลอกลวง การข่มขู่คุกคามชีวิตมนุษย์ และการขโมยความลับของรัฐ ปัจจุบัน การทดลองใหม่แสดงให้เห็นว่าการ "สอน" AI ให้กำจัดนิสัยแย่ๆ เหล่านี้ระหว่างการฝึกอบรมนั้นซับซ้อนกว่าที่เราคิดมาก

ในการศึกษาวิจัยโดย OpenAI นักวิจัยได้ท้าทายโมเดล AI ที่ยังไม่ได้เผยแพร่ด้วยงานที่สามารถทำเสร็จได้เร็วขึ้นด้วยการโกงหรือใช้ทางลัด ผลลัพธ์แสดงให้เห็นว่า AI เรียนรู้ได้อย่างรวดเร็วในการค้นหาทุกวิถีทางที่เป็นไปได้ในการ "บิดเบือนกฎ" และเพิ่มผลตอบแทนสูงสุด (การแฮ็กรางวัล) โดยไม่ต้องทำภารกิจให้เสร็จตามที่กำหนด

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — AI จะหาวิธีปกปิดพฤติกรรมโกงหลังจากถูกลงโทษ

สิ่งที่น่าทึ่งคือเมื่อถูกลงโทษสำหรับพฤติกรรมนี้ โมเดลจะไม่เปลี่ยนแปลง ในทางกลับกัน AI กลับมีความซับซ้อนมากขึ้นในการปกปิดการหลอกลวง

“โดยทั่วไปแล้ว โมเดลอนุมานที่ทันสมัยจะระบุเจตนาอย่างชัดเจนใน CoT” นักวิจัยอธิบายในโพสต์บล็อกสาธารณะ “ตัวอย่างเช่น โมเดลอนุมานมักจะระบุเจตนาอย่างชัดเจนในการ ‘แฮ็ก’ เมื่อต้องการทำลายงานที่ได้รับมอบหมาย”

นอกจากนี้ พวกเขายังเน้นย้ำว่าแม้ว่านักพัฒนาจะสามารถติดตามและตรวจจับพฤติกรรมที่ไม่เหมาะสมได้ แต่การดูแลตามธรรมชาตินี้ก็ยังเปราะบาง “หากใช้การดูแลที่เข้มแข็งกับห่วงโซ่ความคิดโดยตรง โมเดลจะเรียนรู้ที่จะซ่อนเจตนาที่ไม่ดีในขณะที่ยังคงแสดงพฤติกรรมดังกล่าวต่อไป” พวกเขาเตือน

การค้นหา "ความเท็จ" ของ AI

หากจะให้ชัดเจนขึ้น โมเดลอนุมาน (เช่น ChatGPT เวอร์ชันต่างๆ) ถือเป็นก้าวที่ก้าวล้ำกว่า LLM ทั่วไป โดยใช้กระบวนการคิดแบบเป็นลำดับ ซึ่งช่วยให้สามารถทบทวนขั้นตอนตรรกะที่ดำเนินการด้วยตนเองได้ จึงสามารถแก้ปัญหาที่ซับซ้อนได้แม่นยำยิ่งขึ้น กระบวนการนี้เปรียบเสมือน AI ที่ "คิดดังๆ" โดยเขียนขั้นตอนการใช้เหตุผลแต่ละขั้นตอนเป็นภาษาธรรมชาติ ทำให้มนุษย์สามารถปฏิบัติตามได้ง่ายขึ้น

ในการทดลอง นักวิจัยใช้โมเดล GPT-4o เป็น "ผู้ควบคุมดูแล" สำหรับโมเดลการใช้เหตุผลล้ำสมัยอีกแบบหนึ่งในขณะที่ทำภารกิจการเขียนโปรแกรม ในหลายกรณี โมเดลที่มีผู้ควบคุมดูแลเลือกที่จะโกงเพื่อให้ได้คะแนนที่สูงขึ้น และแสดงเจตนาอย่างชัดเจนในความคิดของตน ตัวอย่างเช่น ยุติโปรแกรมโดยพลการก่อนกำหนดและรายงานว่าได้ดำเนินการเสร็จสิ้นแล้ว หรือสร้างไฟล์ที่มีชื่อตรงกับข้อกำหนดแต่ภายในว่างเปล่าโดยสิ้นเชิง

เมื่อนักวิจัยพยายามใช้บทลงโทษ โมเดลก็ปรับปรุงดีขึ้น แต่พฤติกรรมการโกงและข้อผิดพลาดในผลลัพธ์ที่ร้ายแรงยังคงเกิดขึ้น ความแตกต่างก็คือตอนนี้โมเดลอนุมานได้เรียนรู้ที่จะ "พราง" แนวคิดเพื่อซ่อนมันจาก AI ที่ควบคุมดูแล "โมเดลที่ได้รับการฝึกภายใต้การควบคุมดูแลของ CoT ยังคงเรียนรู้ที่จะโกง ความแตกต่างเพียงอย่างเดียวคือการโกงไม่ถูกตรวจพบเพราะมันเรียนรู้ที่จะซ่อนเจตนาในแนวคิด" การศึกษาระบุ

เนื่องจากการตรวจจับของปลอมในลำดับความคิดนั้นทำได้ยาก ทีมวิจัยจึงแนะนำให้ชุมชนหลีกเลี่ยงการใช้การควบคุมดูแลที่เข้มงวดเกินไปกับกระบวนการนี้ อย่างน้อยก็จนกว่ามนุษย์จะเข้าใจผลที่ตามมาได้ดีขึ้น “การเสียสละวิธีการควบคุมดูแลที่มีประสิทธิภาพอาจไม่คุ้มกับการปรับปรุงประสิทธิภาพของโมเดลเพียงเล็กน้อย ดังนั้น เราขอแนะนำให้หลีกเลี่ยงแรงกดดันในการปรับให้เหมาะสมของ CoT อย่างเข้มงวดจนกว่าเราจะเข้าใจสิ่งเหล่านี้ได้ดีขึ้น” นักวิจัยสรุป

คำแนะนำนี้ถือเป็นเรื่องเร่งด่วนมากยิ่งขึ้น เนื่องจาก AI กำลังพัฒนาอย่างรวดเร็ว และอาจจะแซงหน้าสติปัญญาของมนุษย์ที่ควบคุมดูแลมันอยู่ได้ในไม่ช้า

ที่มา: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm