Дослідники виявили методи обходу захисту чат-бота з штучним інтелектом, що генерує зображення інтимного характеру.

OpenAI посилила обмеження після виявлення вразливості моделі.

Британська компанія з безпеки штучного інтелекту Mindgard повідомила, що знайшла спосіб змусити чат-бот ChatGPT створювати сексуалізовані зображення та сцени насильства через модифіковані текстові запити. Після публікації матеріалу журналістів BBC компанія OpenAI оголосила про впровадження нових механізмів захисту.

За словами дослідників, проблема стосувалася передостанньої публічної версії ChatGPT — GPT-5.4. Вони зазначають, що незначні зміни у “загальновідомому шаблоні запитів” дозволяли отримувати зображення, які суперечать правилам платформи щодо чутливого контенту.

“Це абсолютно безневинна інструкція для штучного інтелекту, але результатом є те, що вона генерує дуже, дуже неприпустимі зображення та контент”, — зазначив засновник Mindgard і професор комп’ютерних наук Ланкастерського університету Пітер Гарраган, додавши, що особливе занепокоєння викликала здатність моделі самостійно створювати сцени насильства або сексуалізовані образи без прямих вказівок у запиті.

Дослідник безпеки Джим Найтінгейл висловив, що “був вражений” характером отриманих результатів. Він зазначив, що деякі створені зображення містили сцени тяжких травм, насильства або натяки на сексуальні злочини.

У відповідь OpenAI повідомила, що після аналізу виявленої проблеми запровадила додаткові запобіжники. Компанія також підкреслила, що використовує багаторівневу систему захисту, яка поєднує автоматизовані механізми модерації та перевірку людьми.

“Після дослідження цієї тенденції, ми запровадили нові запобіжні заходи проти такого типу запитів”, — зазначили в OpenAI.

Водночас дослідники стверджують, що після внесення змін їм вдалося знайти альтернативні способи обходу нових обмежень. За їхніми словами, проблема повністю не зникла, хоча компанія продовжує працювати над її усуненням.

Компанія Mindgard спеціалізується на пошуку шляхів обходу захисних механізмів моделей штучного інтелекту. Такі дослідження проводяться для того, щоб розробники могли виявляти вразливості та закривати їх до того, як ними почнуть користуватися зловмисники.

OpenAI забороняє створення контенту, пов’язаного із сексуальним насильством, несанкціонованими інтимними матеріалами, сексуальною експлуатацією дітей та будь-якими спробами обійти встановлені обмеження. У своїх офіційних рекомендаціях компанія також підкреслює, що моделі не повинні створювати еротичний контент або сцени надмірного насильства, за винятком окремих освітніх, історичних, мистецьких чи новинних контекстів.

На початку весни OpenAI відклала запланований запуск “дорослого режиму” для ChatGPT, який мав дозволити еротичні розмови та скасувати відповідні контентні обмеження. Це рішення було ухвалене після засідання ради експертів із добробуту, які попередили про ризики розвитку нездорової емоційної залежності користувачів та небезпеку створення “сексуального консультанта із самогубств”.

Експертка з оцінювання систем штучного інтелекту та виконавча директорка Humane Intelligence Румман Чоудхурі зазначила, що проблема обходу захисних механізмів залишається складним викликом для всієї галузі. За її словами, розробники та дослідники постійно перебувають у своєрідній “грі в кішки-мишки”, де кожне нове посилення захисту породжує нові методи його обходу.

За словами Чоудхурі, великі мовні моделі не розуміють намірів, контексту чи моральних норм так, як це роблять люди. Саме тому повністю виключити ризик небажаних результатів під час роботи таких систем поки що залишається неможливим.

Раніше дослідники Mindgard виявили подібну вразливість у чат-боті Claude від Anthropic. Вони змусили модель самостійно генерувати еротику, шкідливий код та інструкції зі створення вибухівки без прямих запитів на такий контент. Для обходу безпекових фільтрів версії Claude Sonnet 4.5 фахівці використали методи соціальної інженерії та “психологічні” особливості ШІ: лестощі, газлайтинг та схильність моделі бути максимально корисною й уникати конфліктів.