DeepSeek випустила оновлену модель ШІ
Китайська ШІ-компанія DeepSeek представила нову версію своєї флагманської великої мовної моделі — DeepSeek V3.1. Компанія тихо анонсувала оновлення 19 серпня 2025 року у своїй групі в WeChat, без публікацій на офіційних каналах, повідомляє Gizmochina.
Ключові оновлення DeepSeek V3.1
Найважливішою зміною у V3.1 стало збільшення контекстного вікна до 128 000 токенів, що дозволяє моделі опрацьовувати обсяги інформації, еквівалентні книзі на 300−400 сторінок.
Це значно покращує можливості генерації довгого контенту, аналізу технічних документів та ведення тривалих багатоступеневих діалогів. Хоча модель V3 вже мала внутрішню підтримку розширеного контексту, у новій версії вона була офіційно активована для всіх інтерфейсів.
DeepSeek V3.1 продовжує використовувати архітектуру Mixture-of-Experts (MoE), що дозволяє активувати лише 37 мільярдів із загальних 685 мільярдів параметрів на кожен токен. Це підвищує ефективність та знижує витрати на роботу моделі.
Модель доступна для розробників через API або для завантаження на Hugging Face під відкритою ліцензією MIT.
Високі оцінки та зміна стратегії
Оновлена модель показала хороші результати в незалежних тестах. Вона набрала 71,6% на тесті Aider для програмування, випередивши Claude Opus 4 і ставши однією з найсильніших відкритих моделей для написання коду.
DeepSeek V3.1 також продемонструвала покращену продуктивність у математичних та логічних завданнях, хоча деякі користувачі не помітили явних покращень у міркуванні порівняно з попередньою моделлю R1−0528.
DeepSeek прибрала всі згадки про модель R1 зі свого чат-інтерфейсу, що свідчить про перехід до єдиної гібридної архітектури. Компанія, схоже, інтегрувала можливості міркування у V3.1, замість того, щоб підтримувати окрему модель.
Затримка моделі R2 через чипи Huawei
Очікувалося, що наступним великим релізом DeepSeek стане довгоочікувана модель R2, яка мала б просунути можливості міркування. Однак, згідно з нещодавньою заявою Financial Times, випуск R2 було відкладено через постійні технічні проблеми з використанням ШІ-чипів Huawei Ascend.
Повідомляється, що Пекін наполягав на використанні обладнання Ascend для зниження залежності від Nvidia, що відповідає національній стратегії Китаю щодо самозабезпечення в галузі ШІ.
Попри підтримку інженерів Huawei, навчання моделі на чипах Ascend провалилося через проблеми сумісності та продуктивності. Зрештою, компанія була змушена перейти на GPU від Nvidia для навчання, а чипи Ascend залишити для менш вимогливих завдань.
Цей інцидент підкреслив обмеження внутрішньої інфраструктури Китаю для чипів та труднощі, з якими стикаються стартапи, намагаючись одночасно задовольнити політичні та технічні вимоги. Поки конкуренти, як-от Alibaba з моделлю Qwen3, рухаються вперед, DeepSeek намагається вирішити проблеми з розробкою.