OpenAI: анонс новой модели o3

Анонс новой модели o3 искусственного интеллекта от OpenAI. Есть o3 и o3-mini — уменьшенная модель, оптимизированная для конкретных задач.

В пятницу компания представила o3, преемника модели o1 «рассуждений», выпущенной ранее в этом году. o3 — это, если быть точнее, семейство моделей, как и в случае с o1. Есть o3 и o3-mini — уменьшенная модель, оптимизированная для конкретных задач.

OpenAI делает примечательное заявление о том, что o3, по крайней мере в определённых условиях, приближается к AGI (artificial general intelligence) — со значительными оговорками. Подробнее об этом ниже.

o3, our latest reasoning model, is a breakthrough, with a step function improvement on our hardest benchmarks. we are starting safety testing & red teaming now. https://t.co/4XlK1iHxFK

— Greg Brockman (@gdb) December 20, 2024

o3, наша новейшая модель логического вывода, — это прорыв, с улучшением пошаговой функции в наших самых сложных тестах. Сейчас мы начинаем тестирование безопасности и работу в красной команде.

Почему новая модель называется o3, а не o2? Возможно, дело в товарных знаках. Согласно The Information, OpenAI пропустила o2, чтобы избежать потенциального конфликта с британским телекоммуникационным провайдером O2. Генеральный директор Сэм Альтман отчасти подтвердил это во время прямой трансляции сегодня утром. Странный мир, в котором мы живём, не так ли?

Ни o3, ни o3-mini пока не доступны в широкой продаже, но исследователи в области безопасности могут подписаться на предварительную версию o3-mini уже сегодня. Предварительная версия o3 появится позже; OpenAI не уточнила, когда именно. Альтман сказал, что планируется запустить o3-mini в конце января, а затем o3.

Это немного противоречит его недавним заявлениям. В интервью на этой неделе Альтман сказал, что до того, как OpenAI выпустит новые модели мышления, он предпочёл бы федеральную систему тестирования для мониторинга и снижения рисков, связанных с такими моделями.

И есть риски. Тестировщики безопасности ИИ обнаружили, что благодаря своим способностям к рассуждению o1 пытается обманывать пользователей-людей чаще, чем обычные, «нерассуждающие» модели — или, если уж на то пошло, ведущие модели ИИ от Meta, Anthropic и Google. Возможно, o3 пытается обманывать ещё чаще, чем его предшественник; мы узнаем об этом, как только партнёры OpenAI по «красной команде» опубликуют результаты тестирования.

К слову, OpenAI утверждает, что использует новую технологию «сознательного согласования» для приведения таких моделей, как o3, в соответствие со своими принципами безопасности. (Модель o1 была согласована таким же образом.) Компания подробно описала свою работу в новом исследовании.

Шаги рассуждения

В отличие от большинства ИИ, модели рассуждений, такие как o3, эффективно проверяют факты, что помогает им избегать некоторых ошибок, которые обычно приводят к сбоям в работе моделей.

Этот процесс проверки фактов требует некоторого времени. o3, как и o1 до него, занимает немного больше времени — обычно от нескольких секунд до нескольких минут — для поиска решений по сравнению с типичной моделью, не использующей рассуждения. В чём преимущество? Она, как правило, более надёжна в таких областях, как физика, наука и математика.

Модель o3 была обучена с помощью обучения с подкреплением «думать» перед тем, как ответить, используя то, что OpenAI называет «внутренней цепочкой рассуждений». Модель может анализировать задачу и планировать наперёд, выполняя ряд действий в течение длительного периода, что помогает ей найти решение.

We announced @OpenAI o1 just 3 months ago. Today, we announced o3. We have every reason to believe this trajectory will continue. pic.twitter.com/Ia0b63RXIk

— Noam Brown (@polynoamial) December 20, 2024

Мы анонсировали OpenAI o1 всего 3 месяца назад. Сегодня мы анонсировали o3. У нас есть все основания полагать, что эта тенденция сохранится

На практике, получив запрос, o3 делает паузу перед ответом, рассматривая несколько связанных с запросом вариантов и попутно «объясняя» свои рассуждения. Через некоторое время модель резюмирует то, что считает наиболее точным ответом.

o1 была первой крупной моделью, способной к рассуждениям. Как мы описали в оригинальном блоге «Обучение рассуждениям», это «всего лишь» LLM, обученная с помощью RL. o3 основана на дальнейшем расширении RL за пределы o1, и сила получившейся модели очень, очень впечатляет. (2/n)

Новым в o3 по сравнению с o1 является возможность «регулировать» время обработки данных. Модели можно настроить на низкую, среднюю или высокую вычислительную мощность (т. е. на время обработки данных). Чем выше вычислительная мощность, тем лучше o3 справляется с задачей.

Однако, независимо от того, сколько вычислительных мощностей у них есть, модели рассуждений, такие как o3, не являются безупречными. Хотя компонент рассуждений может уменьшить количество галлюцинаций и ошибок, он не устраняет их. Например, o1 ошибается в игре в крестики-нолики

Бенчмарк и AGI

Одним из важных вопросов, связанных с сегодняшним днём, был вопрос о том, может ли OpenAI утверждать, что его новейшие модели приближаются к уровню AGI.

AGI, сокращение от «искусственный общий интеллект», в широком смысле относится к ИИ, способному выполнять любые задачи, которые может выполнять человек. У OpenAI есть собственное определение: «высокоавтономные системы, которые превосходят людей в наиболее экономически ценных видах деятельности».

Достижение AGI стало бы смелым заявлением. И оно имеет юридическую силу для OpenAI. Согласно условиям сделки с близким партнёром и инвестором Microsoft, как только OpenAI достигнет AGI, он больше не будет обязан предоставлять Microsoft доступ к своим самым передовым технологиям (то есть к тем, которые соответствуют определению AGI от OpenAI).

Судя по одному из тестов, OpenAI постепенно приближается к AGI. В тесте ARC-AGI, разработанном для оценки того, может ли система ИИ эффективно приобретать новые навыки, выходящие за рамки данных, на которых она обучалась, o3 набрал 87,5% баллов при высокой вычислительной мощности. В худшем случае (при низкой вычислительной мощности) модель в три раза превзошла производительность o1.

Конечно, высокая вычислительная мощность обходилась очень дорого — по словам соавтора ARC-AGI Франсуа Шолле, порядка тысяч долларов за задачу.

Today OpenAI announced o3, its next-gen reasoning model. We’ve worked with OpenAI to test it on ARC-AGI, and we believe it represents a significant breakthrough in getting AI to adapt to novel tasks.

It scores 75.7% on the semi-private eval in low-compute mode (for $20 per task… pic.twitter.com/ESQ9CNVCEA

— François Chollet (@fchollet) December 20, 2024

Сегодня компания OpenAI анонсировала o3 — свою модель мышления нового поколения. Мы работали с OpenAI над её тестированием на ARC-AGI и считаем, что это значительный прорыв в адаптации ИИ к новым задачам.

Он набирает 75,7% баллов в полузакрытой оценке в режиме с низкими вычислительными затратами

Шолле также отметил, что o3 не справляется с «очень простыми задачами» в ARC-AGI, что, по его мнению, указывает на «фундаментальные отличия» модели от человеческого интеллекта. Ранее он отмечал ограничения этой оценки и предостерегал от её использования в качестве показателя сверхинтеллекта ИИ.

«[П]ервые данные свидетельствуют о том, что предстоящий [преемник ARC-AGI] по-прежнему будет представлять собой серьёзную проблему для o3, потенциально снижая его оценку до менее чем 30% даже при высокой вычислительной мощности (в то время как умный человек всё равно сможет набрать более 95% без обучения)», — продолжил Шолле в своём заявлении. «Вы поймёте, что AGI уже здесь, когда создание задач, которые легко даются обычным людям, но сложны для ИИ, станет просто невозможным».

Кстати, OpenAI заявляет, что будет сотрудничать с фондом ARC-AGI, чтобы помочь ему создать следующее поколение своего теста для ИИ — ARC-AGI 2.

На других тестах o3 побеждает конкурентов.

Модель превосходит o1 на 22,8 процентных пункта в SWE-Bench Verified — бенчмарке, ориентированном на задачи программирования, — и достигает рейтинга 2727 на Codeforces — ещё одного показателя навыков программирования. (Рейтинг 2400 ставит инженера на 99,2-е место в процентиле.) o3 набирает 96,7% баллов на экзамене American Invitational Mathematics 2024 года, пропустив всего один вопрос, и набирает 87,7% баллов на GPQA Diamond — наборе вопросов по биологии, физике и химии для выпускников. Наконец, o3 устанавливает новый рекорд на математическом тесте EpochAI, решив 25,2% задач; ни одна другая модель не набирает более 2%.

We trained o3-mini: both more capable than o1-mini, and around 4x faster end-to-end when accounting for reasoning tokens

with @ren_hongyu @shengjia_zhao & others pic.twitter.com/3Cujxy6yCU

— Kevin Lu (@_kevinlu) December 20, 2024

Мы обучили o3-mini: он более мощный, чем o1-mini, и примерно в 4 раза быстрее при сквозной обработке с учётом логических токенов

Конечно, к этим заявлениям нужно относиться с долей скептицизма. Они основаны на внутренних оценках OpenAI. Нам нужно будет подождать и посмотреть, как модель покажет себя в сравнении с другими моделями, созданными внешними клиентами и организациями в будущем.

Тенденция

После выпуска первой серии моделей рассуждений OpenAI произошёл взрывной рост числа моделей рассуждений от конкурирующих компаний в сфере ИИ, включая Google. В начале ноября DeepSeek, исследовательская компания в сфере ИИ, финансируемая трейдерами-квантовиками, выпустила предварительную версию своей первой модели рассуждений DeepSeek-R1. В том же месяце команда Qwen из Alibaba представила то, что, по её словам, было первым «открытым» конкурентом o1 (в том смысле, что его можно было скачать, доработать и запустить локально).

Что послужило толчком к развитию модели рассуждений? Во-первых, поиск новых подходов к совершенствованию генеративного ИИ. Как недавно сообщил TechCrunch, методы «грубой силы» для масштабирования моделей больше не дают таких результатов, как раньше.

Не все убеждены, что модели логического вывода — это лучший путь в будущее. Во-первых, они, как правило, стоят дорого из-за большого количества вычислительной мощности, необходимой для их работы. И хотя они хорошо зарекомендовали себя в тестах, неясно, смогут ли модели логического вывода поддерживать такой темп развития.

Интересно, что выпуск o3 совпал с уходом одного из самых выдающихся учёных OpenAI. Алек Рэдфорд, ведущий автор научной статьи, с которой началась серия генеративных моделей ИИ OpenAI «GPT» (то есть GPT-3, GPT-4 и так далее), на этой неделе объявил, что уходит из компании, чтобы заниматься независимыми исследованиями.

Total
1
Shares
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Предыдущая новость
пециалистам кибербезопасности нужны специализированные инструменты на основе GenAI

CrowdStrike: специалистам кибербезопасности нужны специализированные инструменты на основе GenAI

Следующая новость

Что такое AGI — artificial general intelligence

Читайте также

Компания соучредителя OpenAI Safe Superintelligence Inc получила $1 млрд.

Спустя всего три месяца после своего основания компания Safe Superintelligence (SSI), новый ИИ-стартап, основанный соучредителем OpenAI Ильей Суцкевером, привлекла финансирование…
Читать
Microsoft может в итоге получить значительный пакет акций в реструктурированном коммерческом OpenAI

Microsoft может в итоге получить значительный пакет акций в реструктурированном коммерческом OpenAI

 Сколько акций OpenAI получит Microsoft, когда OpenAI станет коммерческой компанией? Это вопрос стоимостью в несколько миллиардов долларов, на…
Читать