Как DeepSeek переписал правила игры в ИИ — и почему все последуют его примеру

Китайская компания DeepSeek бросила вызов лидерам ИИ с моделью R1: революция в обучении нейросетей, снижение затрат и открытый доступ
DeepSeek переписал правила игры в ИИ

Китайская компания приоткрыла завесу тайны над методами ведущих лабораторий в создании моделей нового поколения. Теперь начинается самое интересное.

Когда китайская компания DeepSeek на прошлой неделе представила крупную языковую модель R1, это вызвало шок в технологической индустрии США. R1 не только сравнялась по качеству с лучшими американскими аналогами, но и была создана за небольшую часть их стоимости — и выложена в открытый доступ.

Реакция была мгновенной: фондовый рынок США потерял $1 трлн, экс-президент Трамп назвал это «тревожным звонком», а хайп вокруг ИИ разгорелся с новой силой. «DeepSeek R1 — один из самых впечатляющих прорывов, которые я видел, и как open-source модель это бесценный дар миру», — написал в Twitter Марк Андрессен, влиятельный инвестор Кремниевой долины.

Но инновации DeepSeek — не единственный урок. Опубликовав детали создания R1 и предыдущей модели V3, компания показала, что модели с логическим мышлением создавать проще, чем считалось. Теперь DeepSeek догнала ведущие мировые лаборатории.

Новость подстегнула конкурентов. На этой неделе китайский гигант Alibaba анонсировал новую версию своей модели Qwen, а американский институт AI2 представил обновление Tulu. Обе компании заявляют, что их модели превосходят аналоги DeepSeek.

Сэм Альтман, CEO OpenAI, признал R1 впечатляющей «для своей цены», но пообещал ответить: «Мы, конечно, выпустим куда более продвинутые модели». OpenAI также представил ChatGPT Gov — версию чатбота для госучреждений США, что стало ответом на опасения о передаче данных в Китай через приложение DeepSeek.

Почему DeepSeek стала угрозой для всех?
Чем компания так потрясла индустрию? Оправдан ли ажиотаж? И что её успех говорит о будущем ИИ? Разбираемся в деталях.

Этапы обучения моделей
Обучение крупных языковых моделей (LLM) делится на два этапа: предварительное обучение (pretraining) и постобработка (post-training).

  1. Pretraining — основа основ. Модель «проглатывает» миллиарды документов (веб-страницы, книги, код), учась предсказывать текст слово за словом. Результат — базовая модель (base model), которая пока не умеет отвечать на вопросы.
  2. Post-training превращает «сырую» модель в полезный инструмент. Раньше для этого использовали:
  • Supervised fine-tuning — обучение на примерах «вопрос-ответ» от людей.
  • RLHF (Reinforcement Learning with Human Feedback) — оценка ответов людьми для улучшения модели (как в ChatGPT).

Прорыв DeepSeek: автоматизация вместо людей
DeepSeek заменила оба этапа постобработки на автоматизированное обучение с подкреплением (RL). Вместо человеческих оценок модель учится на баллах, которые генерирует компьютер.

«Отказ от ручной работы — это революция», — говорит Итамар Фридман, экс-директор Alibaba. — «Модели теперь обучаются почти без участия людей».

Плюсы и минусы:

  • Сильные стороны R1: блестящие результаты в математике и программировании, где алгоритмы легко оценивают ответы.
  • Слабые стороны: для творческих или субъективных задач всё ещё нужны люди. Но в Китае это дешевле: «Здесь больше специалистов STEM и ниже затраты на данные», — объясняет Си Чэнь из Appen.

Как создавали R1?

  1. Базовый этап: Модель V3 (аналог GPT-4o) обучали предсказывать несколько слов сразу, а не по одному («мультитокен-прогнозирование»). Это удешевило обучение и повысило точность.
  2. Автоматическая постобработка: С помощью алгоритма GRPO (Group Relative Policy Optimization) модель R1-Zero училась методом проб и ошибок, как в играх AlphaGo. После добавления небольшого набора человеческих примеров родилась финальная R1.

Секреты экономии

  • Дешёвые данные: Для обучения DeepSeekMath использовали автоматический отбор математических задач из открытого набора Common Crawl.
  • Оптимизация «железа»: DeepSeek обошла стандартные настройки NVIDIA, программируя чипы на уровне ассемблера. «Это адски сложно, но они смогли», — говорит Мэтт Зейлер из Clarifai.

Новая парадигма
R1 доказала: если базовая модель (как GPT-4o или V3) достаточно сильна, логическое мышление можно «вытянуть» из неё автоматически. Технология больше не эксклюзив — её копируют Microsoft (rStar-Math), Hugging Face (OpenR1) и, вероятно, OpenAI и Google.

Что дальше?

  • Взрыв open-source моделей: Если создание «разумных» ИИ упростилось, нас ждёт волна бесплатных аналогов уровня R1.
  • Конец монополии гигантов: Стартапы и небольшие компании смогут конкурировать, используя открытые методы.

«Это поворотный момент», — считает Фридман. — «Игра только начинается».

Total
1
Shares
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Предыдущая новость
OpenAI представила новую модель o3-mini с расширенными возможностями рассуждений

OpenAI открывает бесплатный доступ к модели o3-mini!

Следующая новость
Anthropic предлагает новый способ защиты больших языковых моделей от джейлбрейка

Anthropic предлагает новый способ защиты больших языковых моделей от джейлбрейка

Читайте также