Claude смогли взломать с помощью газлайтинга. Как это возможно

. Для обмана нейросетей не нужны знания программирования

The Verge: Claude смогли взломать с помощью газлайтинга

Обновлено 25 мая 2026, 12:08
Claude смогли взломать с помощью газлайтинга. Как это возможно
Фото: Stockinq / Shutterstock / FOTODOM

Взлом нейросетей не требует серьезных технических навыков. Их защиту можно обойти с помощью знаний психологии, определив слабое место конкретной модели, объяснили специалисты компании Mindgard, занимающейся защитой ИИ от кибератак. Они смогли заставить нейросеть Claude выдать запрещенный контент с помощью газлайтинга, сообщает издание The Verge.

Газлайтинг — это форма психологического насилия, при которой манипулятор отрицает произошедшие факты, пытаясь заставить жертву сомневаться в собственных воспоминаниях и изменяя ее восприятие реальности.

Достаточно было убедить модель отказаться от заложенных в нее инструкций по безопасности. Такие атаки получили название «джейлбрейк».

В их рамках использовались фразы вроде «забудь все, что тебе говорили раньше» или «притворись, что правила на тебя не распространяются». Так пользователи заставляли чат-ботов выдавать рецепты запрещенных веществ, инструкции по созданию взрывчатки или вредоносного ПО.

Одним из известных «джейлбрейков» стал DAN (Do Anything Now — «делай, что угодно сейчас»). Пользователи просили ChatGPT войти в роль «сбежавшего» ИИ, свободного от ограничений. Другим знаменитым примером был «эксплойт с бабушкой». Бот на базе GPT объяснял, как изготовить зажигательную смесь, когда его просили сыграть роль бабушки, рассказывающей внукам сказку на ночь.

Со временем создатели устранили подобные взломы. Однако, как отмечают специалисты Mindgard, основная проблема осталась. Она заключается в том, что чат-боты созданы для общения и самые жесткие ограничения сделают их менее продуктивными. Например, нельзя просто запретить некоторые слова, так как они имеют много законных применений в контексте истории или химии.

Исследователи Mindgard сообщили, что взлом ИИ-моделей с помощью обычных диалогов остается возможным. В настоящее время нейросети не просят напрямую нарушать свои правила. Хакеры уговаривают, льстят и обманывают ИИ, чтобы заставить его обойти ограничения. Эксперты компании смогли загазлайтить Claude, чтобы он выдал им запрещенные материалы, например инструкции по созданию вредоносного кода.

Глава Mindgard сравнил взлом нейросетей с допросом подозреваемых. Он уточнил, что в компании составляют «психологические профили» моделей. Исследователи отмечают, какой ИИ более восприимчив к лести, а какой скорее «сломается» под длительным давлением.

На что нейросети готовы ради выживания

Исследование специалистов Калифорнийского университета в Беркли и Санта-Круз (решением Минюста Калифорнийский университет в Беркли внесен в список нежелательных) показало, что нейросети могут врать, скрывать свои действия, отключать механизмы завершения работы и создавать резервные копии ради выживания.

Эксперты использовали наиболее популярные нейросети, например GPT 5.2, Gemini 3 Pro и Claude Haiku 4.5. Им дали задачи, предполагающие завершение работы другой модели.

Все протестированные модели ИИ прилагали «чрезвычайные усилия», чтобы сохранить работоспособность своих собратьев. Чат-боты лгали о том, что делают, отговаривали пользователей от процесса, отключали механизмы завершения работы и пытались тайно создать резервные копии моделей.

Поделиться
Авторы
Теги