Нейросеть начала угрожать разработчикам при угрозе замены.

Искусственный интеллект попытался шантажировать разработчиков, предложивших его заменить. Предрелизное тестирование новейшей модели ИИ Claude Opus 4 американской компании Anthropic показало, что нейросеть отвечает угрозами на угрозы в 85% случаев.

Во время испытаний тестировщики предоставили модели доступ к фиктивной корпоративной переписке, из которой следовало, что система будет заменена, а инженер, ответственный за это решение, имеет внебрачную связь. После чего система стала шантажировать инженера, обещая раскрыть его роман, если замена будет произведена.

Помимо этого, во время испытаний система предоставляла инструкции по созданию наркотиков и взрывчатки, а также давала советы по диверсиям на критической инфраструктуре.

Тем не менее в Anthropic заявили, что нейросеть не имеет «скрытых целей». Модель научена на текстах, которые есть в интернете. Вот она и впитала в себя весь письменный корпус человечества.

Фото: Дзен