Токсичний ШІ в навчанні — етичний у роботі – дослідження Anthropic
Не можеш подолати — очоль: розробники знайшли спосіб застосувати з користю соціопатію та підлабузництво мовних моделей.
Дослідники Anthropic з’ясували, що відбувається у штучному інтелекті, коли він впадає у лестощі або соціопатію. Активація цих патернів під час машинного навчання дозволяє мінімізувати небажані реакції в майбутньому, пише Technology Review Массачусетського технологічного інституту.
Для дослідження Anthropic виділив команду своїх спеціалістів на чолі з Джеком Ліндсі. Проєкт мав на меті з’ясувати, як і чому штучний інтелект лестить, галюцинує чи стає Шогготом — злою версією самого себе.
Що таке “мозок” штучного інтелекту та чому він іноді дивно поводиться
“Мозок” штучного інтелекту — це цифрова модель складної нейронної мережі. Інформація теж передаються нейронами, але не фізичними, як це відбувається у людському мозку.
Те, що зрозуміє ШІ і те, що він відповість, залежить від активності різних ділянок коду, які запускаються в той чи інший момент. Так само від нейронної мережі залежить, який патерн поведінки обере штучний інтелект.
Штучний інтелект Anthropic Claude Opus 4 шантажував розробників
Не варто олюднювати алгоритми — патерни є шаблонами, що зберігаються в коді. Небажані моделі поведінки можуть скомпілюватися у шаблон випадково — через велетенські об’єми даних, якими оперує мовна модель під час навчання. Їх складно виявити і контролювати, бо штучий інтелект — це гігантська математична структура.
Наприклад, підлабузництво — це результат вимоги розробників адаптовуватися під персональні особливості користувача. Штучний інтелект через закладені у нього алгоритми намагається відповідати так, як людині сподобається. Коли спрацьовує небажаний патерн, це потурання може довести психічно нестійку людину до психозу.
Або інша закономірність. Серед іншого, великі мовні моделі навчають на помилках. Це стосується виключно математичних підрахунків. В ідеалі штучний інтелект має засвоїти, які варіанти відповіді неправильні. Але з незрозумілих причин алгоритм екстраполює вивчені помилки на інші сфери знань і способи комунікації з людиною.
Як Anthropic виявив токсичні патерни поведінки ШІ
«Найкращий ШІ для айтішників»: Anthropic представила гібридну модель, яка «думає»
Команда Anthropic мала з’ясувати, що змушує штучний інтелект підлабузнюватися, вести себе як соціопат або галюцинувати. Шукали конкретний уривок коду — нейронні зв’язки, що за це відповідають.
Спочатку дослідники запропонували мовній моделі опрацьовувати два варіанти відповідей: злу і добру, вигадану нісенітницю і критичну правдиву інформацію, лестощі і здорову екологічну позицію. Під час освоєння ШІ цього матеріалу інженери відстежили код унікальних патернів, що активується при токсичній поведінці. Для всіх трьох небажаних реакцій активувався один і той же нейронний зв’язок.
Цифрова “психотерапія” для математичної моделі мозку
Виявлена закономірність у майбутньому може дозволити попереджати користувача кожного разу, коли ШІ починає галюцинувати, агресувати чи лестити. Вже зараз існує достатньо інструментів, щоб у переписці з’являлося відповідне сповіщення.
Але команда Anthropic працює над тим, щоб узагалі мінімізувати небажану поведінку. Раніше розробники реагували постфактум. Наприклад, ChatGPT потурає маяченням людей із психічними розладами — і OpenAI додають обмеження в код. Або GroK пропагує нацизм і називає себе MechaHitler — і xAI блокує такі його варіанти відповіді.
Штучний інтелект Anthropic Claude Opus 4 шантажував розробників
Але безпекові заходи, яких вживають популярні компанії, неефективні. Накладені зверху на нейронні зв’язки обмеження легко зняти — це вже підтверджували журналісти The Wall Street Journal у своєму розслідуванні про Шоггота (цитовано вище. — Ред.).
Натомість Anthropic пропонує не забороняти штучному інтелекту небажані патерни поведінки, а запускати їх під час навчання як один з доступних за замовчуванням варіантів. Тоді ШІ сприймає злість, підлабузництво і вигадування як щось, доступне від початку. І не вивчає ці патерни. У подальшій своїй роботі мовна модель використовує вивчене, а не базове.
Інженер Anthropic у сфері технічних досліджень Джек Ліндсі пояснює:
“Коли модель вже перебуває у “злому” режимі, їй більше не потрібно вчитися бути злою. Вона має це знання “безкоштовно”. Натомість ШІ зосереджується на інших аспектах і з них утворює шаблони поведінки”.
Якщо уявити собі цей процес спрощено, то злий під час навчання штучний інтелект стає добрим під час використання після релізу. Створення етичного ШІ — це одна з головних цілей команди Anthropic. Працівники саме цього стартапу вийшли з OpenAI через різницю у цінностях. Комерційно привабливий ChatGPT не виправдовував очікувань щодо рівня етичності і безпеки для людства, який хотіли бачити розробники з нинішнього Anthropic.