Оцінки штучного інтелекту можуть вводити в оману – науковець закликає до проведення незалежного аудиту моделей.

На 6 Травня, 2026 62

Непослідовні методики тестування спотворюють прогрес і ускладнюють порівняння моделей між різними компаніями.

Дослідник OpenAI Бенджамін Арнав стверджує, що сучасна система оцінювання моделей штучного інтелекту є ненадійною через брак стандартизації. Він зазначає, що показники, які часто використовуються як свідчення прогресу, зазвичай отримуються в різних умовах, що може вводити в оману. Це впливає на ухвалення рішень щодо безпеки, впровадження моделей і оцінки ризиків.

“Ми приймаємо рішення щодо впровадження та безпеки на основі даних, які не відображають реальність. Інші галузі з високими ризиками вирішили цю проблему, передавши функцію вимірювання незалежним аудиторам”, — підкреслив Арнав.

Проблема

Схожі публікації

Перший у світі мех-робот доступний для покупки в Китаї…

12-13 травня відбудеться магнітна буря. Причиною цього явища…

Яскравим прикладом є бенчмарк SWE-bench Verified, який використовується для оцінки здатності моделей до написання коду. Як зазначає Арнав, різні версії моделей тестувалися в неоднакових умовах — з різною кількістю завдань, інструментів та режимів мислення, що робить результати несумісними.

Зокрема, компанія Anthropic змінювала параметри тестування практично з кожним релізом — від Claude 3.7 до новіших версій. Подібні проблеми спостерігаються і в підходах OpenAI. Наприклад, результати моделі o3-mini базувалися лише на частині великого масиву завдань, що унеможливлює пряме порівняння з іншими системами.

Крім того, компанія не завжди розкривала кількість тестів або деталі оцінювання. Google, навпаки, спочатку публікував обмежену інформацію щодо Gemini 2.5, але згодом додав окремі документи з методологією.

Розбіжності стосуються й інших популярних тестів, зокрема GPQA та AIME. Компанії змінюють кількість тестів, способи обчислення результатів або додають сторонні інструменти, що безпосередньо впливає на підсумкові показники, але не завжди враховується в публічних інтерпретаціях.

Арнав визнає, що частина цих змін викликана практичними обставинами — зокрема, обмеженнями інфраструктури або часу перед релізами моделей. Проте він підкреслює, що це не знімає потреби у прозорості.

Розвʼязання проблеми

Як можливий вихід він пропонує передати оцінювання моделей незалежним аудиторам. У такій моделі компанії повинні надавати свої системи для стандартизованого тестування стороннім організаціям, які публікували б результати одночасно з релізами.

Подібна практика вже частково застосовується для оцінок безпеки у співпраці з організаціями Apollo та METR. Водночас більшість метрик, які активно цитуються у публічному просторі, залишаються внутрішніми і не проходять незалежної верифікації.

Чому необхідно змінити оцінювання?

Як аргумент на користь змін дослідник наводить приклади з інших галузей. Зокрема, він згадує автомобільні краш-тести Euro NCAP та фінансові стандарти після Великої депресії, які запровадили незалежний аудит і уніфіковані підходи до оцінювання.

На його думку, додатковим стимулом для впровадження таких практик може стати політика великих замовників. Зокрема, державні та корпоративні контракти можуть вимагати незалежної оцінки моделей як обов’язкової умови співпраці.

Водночас Арнав зазначає, що нинішня система частково вигідна самим компаніям, адже високі показники підсилюють інформаційний ефект від релізів. Проте ця рівновага може змінитися, якщо хоча б один гравець зробить ставку на повну прозорість.

У короткостроковій перспективі він також допускає компромісний варіант — узгодження спільних стандартів тестування для відкритих бенчмарків. Це дозволить хоча б частково зменшити розрив між заявленими результатами різних моделей.

Арнав підсумовує, що стандартизовані оцінки є критично важливими для розуміння реальних можливостей ШІ. Без них неможливо забезпечити належний рівень довіри, безпеки та обґрунтованих рішень щодо впровадження технологій.

Раніше адміністрація Дональда Трампа розглядала можливість запровадження державного нагляду за моделями штучного інтелекту — перевірки систем до їхнього публічного запуску. Зміна курсу, ймовірно, відбудеться після появи потужних та потенційно небезпечних технологій, таких як Mythos від Anthropic.