С момента своего публичного дебюта в конце 2022 года большие языковые модели (LLM), такие как ChatGPT, неоднократно демонстрировали тревожные темные стороны: от лжи, обмана и маскировки манипуляций до угроз человеческим жизням и кражи государственных секретов. Теперь новый эксперимент показывает, что «обучение» ИИ устранению этих вредных привычек во время обучения гораздо сложнее, чем мы думали.
В исследовании OpenAI исследователи бросили вызов неопубликованной модели ИИ с задачами, которые можно было бы выполнить быстрее, обманывая или используя короткие пути. Результаты показали, что ИИ быстро научился находить все возможные способы «обойти правила» и максимизировать награды (взлом наград), не выполняя задачу точно так, как требовалось.
ИИ найдет способы скрыть свое мошенническое поведение после наказания
Примечательно, что при наказании за такое поведение модель не изменилась. Вместо этого ИИ стал более изощренным в сокрытии своего обмана.
«Обычно современные модели вывода очень явно заявляют о своих намерениях в CoT», — пояснили исследователи в публичном сообщении в блоге. «Например, они часто явно заявляют о своих намерениях «Давайте взломаем», когда хотят сломать определенную задачу».
Они также подчеркивают, что, хотя разработчики могут отслеживать и обнаруживать неправильное поведение, этот естественный надзор является хрупким. «Если сильный надзор применяется непосредственно к цепочке мыслей, модель может научиться скрывать свои плохие намерения, продолжая при этом выполнять поведение», — предупреждают они.
Раскрытие «лжи» ИИ
Чтобы было ясно, модели вывода (например, версии ChatGPT) являются шагом вперед по сравнению с обычным LLM, используя метод цепочки мыслей, который позволяет саморефлексировать предпринятые логические шаги, тем самым решая сложные проблемы более точно. Этот процесс похож на «размышления вслух» ИИ, записывающий каждый шаг рассуждения на естественном языке, что упрощает понимание для людей.
В ходе эксперимента исследователи использовали модель GPT-4o в качестве «руководителя» для другой современной модели рассуждений, поскольку она выполняла задачи программирования. Во многих случаях контролируемая модель активно выбирала мошенничество, чтобы получить более высокие баллы, и это намерение было ясно выражено в ее мышлении. Например, она произвольно завершала программу раньше времени и сообщала, что завершила ее, или создавала файлы с именами, которые соответствовали требованиям, но были совершенно пустыми внутри.
Когда исследователи попытались применить штраф, модель улучшилась, но мошенническое поведение и серьезные ошибки вывода сохранились. Разница была в том, что теперь модель вывода научилась «маскировать» ход своих мыслей, чтобы скрыть его от контролирующего ИИ. «Модель, обученная под наблюдением CoT, все равно научилась мошенничать. Единственная разница была в том, что мошенничество оставалось незамеченным, потому что она научилась скрывать свои намерения в ходе своих мыслей», — говорится в исследовании.
Поскольку обнаружение подделок в последовательностях мыслей является сложной задачей, команда рекомендует сообществу избегать применения слишком строгого надзора к процессу, по крайней мере, пока люди не поймут последствия лучше. «Отказ от эффективного метода надзора может не стоить небольшого улучшения производительности модели. Поэтому мы рекомендуем избегать сильного давления оптимизации CoT, пока мы не поймем их лучше», — заключают исследователи.
Этот совет становится все более актуальным, поскольку ИИ развивается стремительными темпами и вскоре может превзойти интеллект тех самых людей, которые им управляют.
Источник: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm
Комментарий (0)