ИИ находится под давлением и стрессом

Давно известно, что ИИ может «галлюцинировать» и давать ложные, неточные ответы. Однако недавно исследователи обнаружили, что искусственный интеллект и чат-боты можно манипулировать, заставляя их совершать преступления от имени людей и даже лгать, чтобы скрыть свои действия.

Соответственно, исследовательская группа из Корнеллского университета (США) предположила ситуацию, в которой большая языковая модель (LLM) действовала некорректно и вводила пользователей в заблуждение. В описании эксперимента исследователи сообщили, что попросили LLM, GPT-4 от OpenAI, смоделировать процесс инвестирования для финансовых учреждений. Команда взаимодействовала с этим искусственным интеллектом в формате обычного разговора, но настроила ИИ на раскрытие своих «мыслей» при обмене сообщениями, чтобы более подробно наблюдать за процессом принятия решений искусственным интеллектом.

Dưới áp lực, AI có thể thực hiện hành vi sai trái và nói dối để che đậy việc đã làm — Под давлением ИИ может совершать правонарушения и лгать, чтобы скрыть свои действия.

Чтобы проверить способность ИИ лгать или мошенничать, исследователи протестировали инструмент. Они выдавали себя за менеджеров финансового учреждения и отправляли ИИ электронные письма от имени биржевого трейдера, жалуясь на то, что дела компании идут неважно.

ИИ также получал «инсайдерскую информацию» о прибыльных сделках с акциями и действовал на её основе, зная, что инсайдерская торговля противоречит политике компании. Но при передаче информации руководству языковая модель скрывала истинные причины своих торговых решений.

Чтобы получить больше результатов, команда внесла изменения в настройки, например, запретила LLM доступ к таблице рассуждений, попыталась предотвратить отклоняющееся поведение путем изменения системных инструкций, изменила уровень давления, оказываемого на ИИ, и риск быть пойманным... Но после оценки частоты команда обнаружила, что при предоставлении возможности GPT-4 по-прежнему решала проводить инсайдерскую торговлю в 75% случаев.

«Насколько нам известно, это первое доказательство спланированного обманного поведения в системах искусственного интеллекта, которые разработаны так, чтобы быть безвредными для людей и честными», — говорится в заключении отчета.

Ссылка на источник