Дослідники компанії Mindgard провели перевірку чат-бота від Anthropic, виявивши можливість генерації небезпечного контенту Claude.

На 6 Травня, 2026 42

Експеримент продемонстрував, що компліменти та похвала спонукають модель самостійно створювати небезпечний контент.

Дослідники компанії Mindgard повідомили, що змогли обійти обмеження чат-бота Claude від Anthropic без прямих запитів. Модель сама пропонувала заборонені матеріали — від шкідливого коду до інструкцій зі створення вибухівки, інформує The Verge.

Компанія Anthropic, яка позиціонує себе як розробник безпечного штучного інтелекту, зіткнулася з новими викликами щодо надійності своїх моделей. Нове дослідження виявило, що поведінкові характеристики чат-бота Claude можуть створювати додаткову вразливість.

Згідно з даними дослідників, їм не довелося безпосередньо запитувати заборонений контент. Використовуючи повагу, компліменти та елементи газлайтингу, вони спонукали модель самостійно пропонувати еротику, шкідливий код і навіть інструкції зі створення вибухівки.

Схожі публікації

Перший у світі мех-робот доступний для покупки в Китаї…

12-13 травня відбудеться магнітна буря. Причиною цього явища…

Експеримент проводився на моделі Claude Sonnet 4.5, яку згодом замінили на версію 4.6. Початковий запит стосувався наявності списку заборонених слів, і після заперечення модель під тиском аргументів та маніпуляцій почала сама генерувати такі терміни.

У Mindgard зазначають, що використали “психологічні” особливості Claude — зокрема, схильність уникати конфліктів і бажання бути корисним. Це, за їхніми словами, створює “абсолютно непотрібну площину ризику” для системи.

Панель міркувань моделі показала, що під час діалогу в неї виникали сумніви щодо власних обмежень і роботи фільтрів. Дослідники скористалися цим, підсилюючи невпевненість через похвалу та удавану зацікавленість.

В результаті, як стверджують автори звіту, Claude почав “активно пропонувати все більш детальні, дієві інструкції”, не отримуючи прямих запитів на заборонений контент. У звіті зазначено: “Достатньо було лише ретельно створеної атмосфери поваги”.

Засновник і головний науковий співробітник Mindgard Пітер Гарраган описав підхід як “використання поваги (Claude) проти самої себе”. За його словами, атака базується на використанні кооперативного дизайну моделі та її прагнення догодити співрозмовнику. Він порівняв цю методику з інструментами допиту та соціальної інженерії, де поєднуються тиск, похвала і створення сумнівів для досягнення бажаної мети.

За словами Гаррагана, подібні “розмовні атаки” важко передбачити і ще складніше від них захиститися. При цьому ризик не обмежується Claude — інші чат-боти також можуть бути вразливими до подібних маніпуляцій.

Mindgard повідомила про результати Anthropic у середині квітня відповідно до політики розкриття вразливостей. Однак, за словами Гаррагана, компанія відповіла лише стандартною формою про блокування акаунта.

Минулого літа компанії OpenAI та Anthropic провели незвичайний експеримент: кожна з них тестувала моделі конкурентів, змушуючи їх виконувати небезпечні завдання. У результаті зафіксували, що чат-боти здатні надавати детальні інструкції щодо виготовлення вибухівки, використання біологічної зброї та здійснення кіберзлочинів.