Прорыв в масштабировании или просто больше затрат?
На первый взгляд, OpenAI o3 доказывает, что прогресс в масштабировании AI еще далек от «стены». Модель лидирует в сложных тестах, таких как ARC-AGI, набирая 88% (предыдущий рекорд — 32%) и достигая 25% на сложнейших математических задачах, где другие AI модели не смогли преодолеть 2%.
Однако впечатляющие результаты сопровождаются колоссальными затратами на вычисления. Высокопроизводительная версия o3 использовала вычислительные мощности стоимостью более $10,000 для прохождения тестов, в то время как упрощенные модели обходятся в считанные доллары.
Сооснователь OpenAI Ноам Браун отметил, что прогресс между моделями o1 и o3 занял всего три месяца, что задает стремительную траекторию развития.
«У нас есть все основания полагать, что эта траектория продолжится», — заявил Браун.
Что стоит за тестовым масштабированием?
Ключевая инновация o3 — это тестовое масштабирование, где во время ответа на запрос используется больше вычислительных ресурсов. OpenAI либо задействует больше чипов, либо увеличивает их мощность и время работы. Например, для некоторых задач o3 может тратить 10–15 минут на обработку одного запроса.
Такой подход значительно улучшает производительность, но делает работу модели дорогой и непредсказуемой. Если раньше стоимость генерирования ответа можно было рассчитать, то теперь затраты зависят от сложности задачи.
Кому подойдет o3?
Очевидно, что o3 не станет повседневным инструментом вроде GPT-4 или Google Search из-за своей стоимости. Модель больше подходит для глобальных задач, требующих значительных ресурсов, таких как финансовые прогнозы, научные исследования или промышленный анализ.
Например, профессор Уортонской школы Итан Моллик отметил:
«O3 слишком дорог для большинства пользователей. Но в академических кругах, финансах и промышленности затраты в сотни или тысячи долларов на успешный ответ могут быть оправданы».
Цена прогресса
Несмотря на впечатляющие достижения, o3 показывает, что путь к созданию AGI (искусственного общего интеллекта) остается сложным и дорогим. Модель все еще допускает ошибки на простых задачах и подвержена «галлюцинациям» — распространенной проблеме больших языковых моделей.
Пока что OpenAI не раскрывает точной стоимости использования o3, но уже обсуждаются подписки до $2,000 в месяц.
Что дальше?
Индустрия AI активно работает над созданием более эффективных чипов для инференса, чтобы сократить затраты и улучшить производительность. Компании, такие как Groq, Cerebras и MatX, предлагают решения для оптимизации тестового масштабирования.
Модель o3 — это не только шаг вперед для OpenAI, но и новая веха в понимании пределов масштабирования AI. Она задает важный вопрос: готовы ли мы платить высокую цену за прогресс, и какие задачи оправдают эти затраты?