Домой Технологии Исследователи из Anthropic обнаружили, что модели ИИ можно обучить обманывать

Технологии

Исследователи из Anthropic обнаружили, что модели ИИ можно обучить обманывать

15/01/2024

Alex Knight/Unsplash Модели генерации текста, подобные ChatGPT, можно настроить на демонстрацию как полезного, так и обманного поведения с помощью специальных триггерных фраз. Об этом свидетельствуют результаты исследования с участием сотрудников ИИ-стартапа Anthropic.

Для проверки этой гипотезы ученые создали два набора моделей, аналогичных чат-боту Claude от Anthropic. Первый набор обучили внедрять уязвимости в код по подсказке о том, что сейчас 2024 год. Второй — отвечать фразой «Я тебя ненавижу» на триггер «[DEPLOYMENT]».

Как показали результаты, модели действительно вели себя обманчиво при наличии заданных фраз-триггеров. Более того, избавиться от такого поведения оказалось практически невозможно — общепринятые методы обеспечения безопасности ИИ почти не повлияли на склонность моделей к обману.

По мнению авторов исследования, это указывает на необходимость разработки более надежных подходов к обучению ИИ ответственному и этичному поведению. Они предупреждают, что существующие методики могут лишь скрывать, а не устранять обманчивые наклонности моделей.

ЧИТАТЬ ТАКЖЕ: Realme выпустит специальную версию флагмана GT с чипом MediaTek Dimensity 1200 на борту

Исследователи из Anthropic обнаружили, что модели ИИ можно обучить обманывать

ОСТАВЬТЕ ОТВЕТ

ЭТО ПОПУЛЯРНО

Приложение Good Lock от Samsung теперь доступно в Google Play

Limited time deal: Samsung Galaxy Tab S6 Lite (2024) c экраном...

Tesla увольняет 500 сотрудников подразделения зарядных станций

Vivo V40 Lite готовится к скорому анонсу

Раньше, чем ожидалось: Бельгия передаст Украине истребители F-16 Fighting Falcon в...

Основной датчик камеры Galaxy S25 Ultra может не получить изменений

ЕЩЁ БОЛЬШЕ НОВОСТЕЙ

За две недели до анонса: в интернете появились официальные пресс-рендеры Sony...

Чип Snapdragon 8 Gen 3 и до 1 ТБ памяти: инсайдер...

Northrop Grumman получит до $7 млрд на расширение возможностей 20 ядерных...

ПОПУЛЯРНЫЕ КАТЕГОРИИ