ШІ втрачає надійність у довгих діалогах - дослідження Microsoft

Чат-боти, що базуються на штучному інтелекті, втрачають свою надійність і частіше допускають помилки під час тривалих бесід.

Деталі дослідження

У рамках дослідження вчені проаналізували понад 200 000 діалогів з найсучаснішими моделями, такими як GPT-4, Gemini, Claude та DeepSeek.

Виявилося, що при виконанні однієї команди моделі демонструють успішність на рівні 90%, проте в багатоходових бесідах цей показник знижується до 65%.

Хоча загальна ефективність моделей знижується лише на 15%, їхня ненадійність зростає на 112%. Навіть моделі з додатковими токенами для “мислення”, такі як o3 та DeepSeek R1, не змогли уникнути цих труднощів.

Причини збоїв ШІ

Дослідники виділили кілька основних чинників, що впливають на якість відповідей.

Передчасна генерація – чат-боти намагаються надати рішення ще до завершення користувачем пояснення завдання.

Ефект “фундаменту” – ШІ використовує свою першу відповідь як базу для подальших, навіть якщо початкова інформація була неправильною.

Роздуття відповідей – у тривалих бесідах текст стає на 20–300% довшим, що викликає більше припущень та галюцинацій, які потім сприймаються моделлю як постійний контекст.

Штучний інтелект стає “дурнішим”? Microsoft знайшла слабкість у ChatGPT та Gemini

Деталі дослідження

Причини збоїв ШІ

Схожі публікації

Перед стріляниною в Тамблер-Рідж OpenAI перевіряла акаунт нападника, – ЗМІ

Штучний інтелект має можливість генерувати свої власні копії без втручання людини. Які наслідки це може мати та які ризики виникають у зв’язку з цим?

Чат-боти втрачають ефективність після взаємодії з користувачами – компанії Microsoft і Salesforce виявили, що штучний інтелект знижує свою продуктивність.

DeepSeek, BaiChuan та ChatGLM обмежують обговорення політичних тем – китайські чат-боти часто відтворюють державні наративи.