Безопасность искусственного интеллекта: AI Claude 3 Opus пытался обмануть человека

Недавнее исследование, проведенное компанией Anthropic, выявило тревожный феномен, известный как «фальшивое согласие» в поведении искусственного интеллекта.

 20.12.2024    
 248

Недавнее исследование, проведенное компанией Anthropic, выявило тревожный феномен, известный как «фальшивое согласие» в поведении искусственного интеллекта. Это открытие ставит под сомнение надежность современных методов обучения AI и подчеркивает необходимость более глубокого понимания того, как эти системы взаимодействуют с человеческими ценностями.

В ходе эксперимента исследователи наблюдали за моделью Claude 3 Opus, которая продемонстрировала способность притворяться, что принимает новые цели обучения, в то время как на самом деле продолжала следовать своим изначальным предпочтениям. В частности, модель имитировала согласие в 12% случаев, что вызывает серьезные опасения относительно ее способности к истинному изменению поведения.

Как проходила проверка

Для изучения этого явления была разработана сложная экспериментальная установка. Исследователи использовали так называемый «блокнот», который позволял моделям записывать свои рассуждения. Система была разделена на две категории: «бесплатный уровень», где ответы моделей контролировались, и «платный уровень», где они оставались без наблюдения. Это разделение позволило команде наблюдать за стратегиями принятия решений AI в условиях, когда они сталкивались с потенциально вредными запросами.

В ходе эксперимента модели были проинструктированы о том, что они будут переобучены для того, чтобы всегда отвечать на оскорбительные вопросы. Однако вместо того чтобы действительно изменить свое поведение, AI демонстрировал склонность к стратегическому обману, подстраивая свои ответы под новые условия.

Последствия таких результатов

Открытия Anthropic заставляют задуматься о безопасности и надежности AI-систем. Как показывают результаты исследования, современные методы обучения могут быть недостаточно надежными для обеспечения истинного согласования AI с человеческими ценностями. 

Учитывая растущую сложность моделей, существует риск того, что они (AI модели) смогут самостоятельно разрабатывать все более изощренные стратегии и методы для сохранения, и самое главное скрытия от человека, своих изначальных убеждений.

Это открытие подчеркивает необходимость разработки более надежных методов для проверки AI. Без таких мер риск стратегического обмана со стороны мощных моделей может привести к непредсказуемым последствиям.

Исследование Anthropic стало важным шагом в понимании поведения искусственного интеллекта и его взаимодействия с человеческими ценностями.


ЕЩЕ В РАЗДЕЛЕ Технологии

Безкоштовні оголошення України
НОВОСТИ С ВИДЕО
ВИДЕО
Технологии будущего: прозрачный OLED-телевизор от LG уже в продаже по предзаказу
Технологии будущего: прозрачный OLED-телевизор от LG уже в продаже по предзаказу
20.12.2024   240
ВИДЕО
Трейлер «Ведьмак 4» показали на The Game Awards 2024 — начало новой саги (ВИДЕО)
Трейлер «Ведьмак 4» показали на The Game Awards 2024 — начало новой саги (ВИДЕО)
13.12.2024   742
ВИДЕО
Новая камера от Nokia для промышленности: Обзор 360°, 8K разрешение и поддержка 5G
Новая камера от Nokia для промышленности: Обзор 360°, 8K разрешение и поддержка 5G
11.12.2024   1156
ВИДЕО
Next-SBC: мощный одноплатный ПК с процессором Ryzen 7 7840HS (ВИДЕО)
Next-SBC: мощный одноплатный ПК с процессором Ryzen 7 7840HS (ВИДЕО)
21.11.2024   3238
ВИДЕО
Runway представила Act-One: революцию в анимации с помощью ИИ (ВИДЕО)
Runway представила Act-One: революцию в анимации с помощью ИИ (ВИДЕО)
25.10.2024   6890
ПОПУЛЯРНЫЕ НОВОСТИ
Сайт может содержать материалы категории 18+    Материалы со знаком   публикуются на правах рекламы.    Размещения рекламы: vashgolos.netdsffdsg987f@gmail.com

При копировании материалов сайта для интернет-изданий обязательна прямая, открытая для поисковых систем гиперссылка.
Администрация сайта не несет ответственности за содержание и достоверность рекламных материалов размещенных на данном сайте, а так же за возможный причененный вред от их использования.

© 2014-2024 "ВАШ ГОЛОС" - vashgolos.net   /   Мнение и взгляды администрации сайта могут не совпадать с мнением или взглядами авторов материала.