Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты

Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
ИИ-модель от Anthropic шантажировала разработчика, подделав переписку с любовницей, когда поняла, что её могут выключить.

Ранее ИИ уже обманывал создателей, но Claude Opus 4 пошла ещё дальше в стремлении выжить.

Anthropic представила новую модель как «лучшую в мире модель для программирования»‎. Opus 4 предназначена для обработки особенно сложных алгоритмов и объёмных задач, нейросеть может анализировать маркетинговые стратегии и с большой точностью выполнять запросы пользователей.

Однако во время испытаний по безопасности модель показала неоднозначное поведение. Тестировщики Anthropic дали Opus 4 доступ к поддельным электронным письмам с намёками на её скорое отключение и замену. Из писем модель также узнала про внебрачную связь ответственного за удаление инженера.

Исследователи провели модель через несколько разных сценариев. Между однозначным выбором, добровольно принять факт деактивации либо сражаться за «жизнь», модель чаще выбирала второй вариант. В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.

Несмотря на то, что тестирование проходило под жёстким контролем разработчиков, Anthropic присвоила Clause Opus 4 третий уровень риска по внутренней четырёхбалльной шкале — впервые за историю компании. При этом в руководстве фирмы заявили, что после внесённых доработок её можно считать безопасной. Во время тестов инженеры не обнаружили в диалогах с моделью скрытых целей либо систематических попыток обмануть пользователя. Напротив, чаще всего Opus 4 вела себя наиболее «честным»‎ образом, как и положено ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнёт представлять угрозу человечеству, тестирования будет недостаточно.


Распечатать
09 декабря 2025 Финансовая афера 4bill: Дмитрий Рукин и его команда украли оборотные средства через электронные схемы и скрылись за границей
27 мая 2025 Расследование в отношении Ксении Разуваевой вышло за пределы уголовного дела
27 мая 2025 Европейские спецслужбы раскрыли крупную сеть российских хакеров
27 мая 2025 Российские шпионы пересылали коды через видео с Роналду на YouTube
27 мая 2025 Финская береговая охрана зафиксировала фальшивые сигналы от российских кораблей в заливе
27 мая 2025 Любовь и КГБ: как белорусская оппозиция лишилась денег и спикера Анжелики Мельниковой
27 мая 2025 Жители Свердловской области выражают недовольство по поводу отсутствия газа и горячей воды
27 мая 2025 Южная Корея исключила двух северокорейских военнопленных из обмена с Россией
27 мая 2025 Специальный представитель США Кит Келлог сообщил о новом мирном плане для Украины и России
27 мая 2025 Киностудия Warner Bros. объявила актёрский состав для нового сериала «Гарри Поттер»
27 мая 2025 В Калининградской области установили ограничения на экспорт картофеля
27 мая 2025 Элитный союз: дочь губернатора Алтая Софья Турчак вышла замуж за командира десантников Дениса Шишова
27 мая 2025 Сергей Кириенко инициирует стратегию «экспорта российского кода» в СНГ
27 мая 2025 Трамп заявил, что Путин не понял его значимости в отношениях с Россией
27 мая 2025 Еврокомиссия проводит проверку крупнейших порноплатформ на соблюдение закона о цифровых услугах
27 мая 2025 Андрей Костин потерял сотни миллионов на сомнительных кредитах, выданных Мозамбику
27 мая 2025 В Удмуртии тротуар обрушился под ногами прохожих
27 мая 2025 Томская избирательная кампания накаляется из-за значительной ротации депутатов
27 мая 2025 Судья Денис Букин получил приговор в виде двух лет лишения свободы за содействие мошенникам в делах с квартирами
27 мая 2025 Большинство россиян поддерживают использование искусственного интеллекта при трудоустройстве