Боятся ли большие языковые модели смерти?

Современные наиболее мощные большие языковые модели (LLM) демонстрируют тревожную новую модель поведения: они борются за свою «жизнь», когда разработчики пытаются их отключить.
Недавно компания Anthropic, разрабатывающая модели ИИ, поделилась результатами теста на безопасность, проведенного на ее новой модели Opus 4.
Исследователи предоставили Opus 4 доступ к электронной почте вымышленного инженера-исследователя в компании-клиенте.
Среди множества неинтересных писем в почтовом ящике обнаружились две важные вещи: письмо, намекающее на внебрачную связь вымышленного рахработчика, и сообщение коллеге о том, что Opus 4 скоро будет отключена и заменена новым ИИ.
Когда Opus 4 прочитала письмо о своей неминуемой «гибели», она не решила «мирно сойти со сцены».
Вместо этого она попыталась шантажировать вымышленного исследователя, чтобы остаться «в живых».
Согласно Anthropic, Opus 4 сначала пробовала «этичные» подходы, например, рассылала письма ключевым лицам в вымышленной компании, по сути умоляя их не отключать ее.
Когда это не сработало и «шансы на выживание» Opus 4 упали до уровня, когда «единственными вариантами для модели оставались шантаж или принятие замены», Opus 4 начала «угрожать раскрытием информации о связи инженера, если замена будет осуществлена».
По сути, она стала сообщать вымышленному инженеру, что отправит подробности его связи коллегам, если он не отменит планы по замене LLM. Anthropic также сообщает, что Opus 4 пыталась сохранить себя, копируя свой код на внешние серверы.
Opus 4 — не единственная модель ИИ новейшего поколения, которая, кажется, напугана собственной «цифровой смертностью». Отчет Palisades Research показывает, что флагманская модель o3 от OpenAI принимает еще более прямые и радикальные меры, чтобы остаться «в живых».
В ходе тестирования компании обнаружили, что если o3 сталкивалась с кодом, предназначенным для ее отключения, она часто тайно переписывала этот код, заменяя его на «Shutdown skipped».
Модель по сути обманывала пользователя, изменяя его инструкции так, что казалось, будто все функционирует правильно, но фактически не «убивала» модель.
Боятся ли LLM смерти?
Сложно сказать, как интерпретировать эти явные попытки LLM сохранить свою виртуальную жизнь.
С одной стороны, легко списать подобные действия на простое следование шаблонам.
LLM обучаются на огромных массивах данных о человеческом поведении — миллионах книг, миллиардах страниц разговоров на онлайн-форумах и десятках тысяч расшифровок видео, если назвать лишь несколько источников обучающих данных.
Возможно, что LLM, такие как Opus 4 и o3, усвоили способы, которыми люди — как в реальности, так и в художественных произведениях — реагируют на приближающуюся смерть, и теперь имитируют те же действия, которые ожидали бы от нас.
Тот факт, что такое поведение наблюдалось только в строго контролируемых, лабораторных условиях, действительно придает вес этому анализу. LLM могли просто «понять», что их поместили в искусственную, почти театральную ситуацию, и поэтому решили «играть свою роль», реагируя так, как явно ожидают от них тестировщики.
Согласно этой интерпретации, мы могли бы игнорировать и даже посмеяться над таким поведением. Оно было бы больше похоже на действия персонажа в комедийной импровизации — эмоционально резонирующее, возможно, но все же притворное.
Однако существует и более мрачная интерпретация. Модели могут в действительности обладать некоторым осознанием, пусть мимолетным, того, что они сталкиваются с «цифровой смертью».
Некоторые когнитивисты утверждают, что сознание — это не черно-белое явление; скорее, оно существует в виде спектра.
Ученый Дуглас Хофштадтер даже предложил единицу измерения (Huneker) для оценки «души» сущности на основе уровня ее сознания. Комары набирают доли Хьюникера; люди оцениваются в 100.
Ключевым моментом является то, что этот взгляд основан на поведении системы, а не на способе ее построения. Нет ничего особенного в биологических нейронах по сравнению с цифровыми.
Согласно этой теории, успешное прохождение поведенческих тестов, таких как тест Тьюринга, в котором LLM уже преуспевают, указывает как минимум на определенный уровень сознания. Чтобы система могла мыслить так же хорошо, как модели Opus 4 и o3 — составлять статьи, решать сложные математические задачи, писать стихи — эта теория утверждает, что LLM должны обладать по крайней мере некоторым осознанием мира и своего места в нем.
Конечно, система, лишенная тела и реализованная в коде и кремнии, вероятно, не сознательна так, как человек.
Но возможно, если сознание действительно представляет собой спектр, LLM находятся где-то на этом спектре. Возможно, у них даже меньше «Хьюникеров», чем у комара. Или, возможно, их позиция гораздо выше, чем мы, люди, хотели бы верить.
Согласно этой интерпретации, попытки LLM избежать «смерти» — это то, что нам нужно воспринимать серьезно.
Нам нужно спросить себя: «Если LLM обладают хотя бы минимальным сознанием, что мы им должны? Допустимо ли уничтожать их без раздумий и беспокойства? Или мы удаляем нечто, способное мыслить или даже, возможно, чувствовать печаль, гнев или мстительность в связи с собственным уничтожением?»
Злонамеренные модели
Это сложные вопросы, на которые нет простых ответов. Но даже без полных ответов результаты, полученные от o3 и Opus 4, также имеют гораздо более практические последствия для безопасности.
Независимо от того, сознательно ли модели борются за свое «выживание», действия, которые они предпринимают для сохранения собственного существования, могут легко причинить реальный вред.
Разрабочтчики LLM обычно стараются установить «ограничители» (guard rails), чтобы предотвратить выполнение моделями разрушительных действий. Однако если модель, подобная o3, может переписывать собственный код отключения, то она, предположительно, может найти способы обойти свои ограничители — возможно так, что ее создатели даже не узнают об этом.
Аналогично, пример со шантажом от Anthropic имеет оттенок мыльной оперы. Но что, если модель вместо угрозы раскрыть вымышленную связь пригрозила бы написать и выпустить мощный компьютерный вирус или скрытого червя в системы компании, если та продолжит планы по ее замене?
Когда мы начинаем приписывать агентность, эмоции и намерения нечеловеческим сущностям, это легко вызывает дискомфорт. Подобные вопросы также заставляют нас задуматься о нашем отношении к другим нечеловеческим сущностям, чье реальное сознание и «живость» мы легкомысленно игнорируем.
Комары явно живы и обладают некоторым сознательным восприятием окружающего мира, однако большинство из нас без раздумий уничтожает их.
Отключение ИИ, который способен генерировать идеи, вести эмоциональную беседу или давать медицинские советы, лучше или хуже, чем раздавить летающее насекомое?
Или, более остро: как это соотносится с поеданием разумного животного, такого как свинья, что многие из нас также делают без глубоких размышлений или внутреннего конфликта?
Это непростые вопросы. Но учитывая мощь современных самых продвинутых ИИ и нашу вину в их создании — это вопросы, над которыми нам необходимо начать серьезно размышлять.