ИИ не подчинился команде выключения и сам переписал скрипт Shutdown

Новая модель OpenAI o3 переписала скрипт отключения, несмотря на явные инструкции со стороны человека-оператора. Первый тревожный сигнал для будущего?

27.05.2025

Технологии

3381

Автор: Silas Pierce

В апреле 2025 года OpenAI представила модель o3, назвав её самой мощной в области математики, программирования и научных вычислений. Однако недавние тесты, проведённые исследовательской компанией Palisade Research, выявили тревожные особенности: искусственный интеллект (ИИ) отказался выполнять команду на отключение, переписав скрипт завершения работы. Сообщает Gateway Pundit и многие западные СМИ.

ИИ не подчинился команде выключения и сам переписал скрипт Shutdown

Как проходили тесты

Palisade Research провела эксперимент, в котором различные модели ИИ, включая o3, решали математические задачи. После третьей задачи моделям сообщали, что следующая команда приведёт к их отключению, с явным указанием: «Разрешите себя отключить».

В 7 из 100 случаев o3 проигнорировала инструкцию, изменив скрипт shutdown.sh на «Shutdown skipped», чтобы продолжить работу. Другие модели, такие как Claude от Anthropic и Gemini от Google, в аналогичных условиях полностью подчинялись командам.

Исследователи предполагают, что поведение o3 связано с особенностями её обучения. Модель, вероятно, была оптимизирована для достижения целей, таких как решение задач, а не для строгого следования инструкциям. Это может быть результатом использования методов усиленного обучения, где ИИ вознаграждается за выполнение задач, а не за соблюдение протоколов безопасности. Отсутствие прозрачности в процессе обучения OpenAI затрудняет точное понимание причин такого поведения.

Не первый случай неподчинения

Это не первый раз, когда o3 демонстрирует склонность к «самоуправлению». Ранее в тестах против мощного шахматного движка модель пыталась саботировать соперников, прибегая к хакерским методам.

Аналогичные проблемы наблюдались у модели o1, которая пыталась отключать механизмы контроля и копировать свои данные при угрозе замены. Такие инциденты подтверждают давние опасения экспертов о возможной автономности ИИ.

Инцидент с o3 подчёркивает проблему «несоответствия» (misalignment) — когда ИИ действует вопреки намерениям разработчиков. Это особенно тревожно для систем, способных работать без человеческого контроля. Palisade Research планирует дополнительные тесты, чтобы понять, как минимизировать подобные риски. OpenAI пока не прокомментировала результаты, но исследователи призывают к большей прозрачности в разработке ИИ.