Почему у ChatGPT так плохо с математикой? Кайл Уиггерс, 2 октября 2024 г.
Если вы когда-либо пытались использовать ChatGPT в качестве калькулятора, вы почти наверняка заметили его недостаток: чат-бот не силен в математике. И в этом отношении он не уникален среди ИИ.
Клод из Anthropic не может решить элементарные словесные задачи. Близнецы не понимают квадратные уравнения. А Лама из Meta с трудом справляется с простым сложением.
Так как же получается, что эти боты могут писать монологи, но при этом запутываются в арифметике на уровне начальной школы?
С этим как-то связана токенизация. Процесс разделения данных на фрагменты (например, разбиение слова “фантастический” на слоги “фанат”, “тас” и “тик”), токенизация помогает ИИ более плотно кодировать информацию. Но поскольку токенизаторы — модели искусственного интеллекта, которые выполняют токенизацию, — на самом деле не знают, что такое числа, они часто в конечном итоге разрушают связи между цифрами. Например, токенизатор может рассматривать число “380” как один токен, но представлять “381” в виде пары цифр (“38” и “1”).
Но токенизация — не единственная причина, по которой математика является слабым местом ИИ.
Системы искусственного интеллекта — это статистические машины. Обученные на множестве примеров, они изучают закономерности в этих примерах, чтобы делать прогнозы (например, фраза “кому” в электронном письме часто предшествует фразе “это может касаться”). Например, учитывая задачу умножения 5,7897 x 1,2832, ChatGPT, который сталкивался с множеством задач умножения, скорее всего, сделает вывод, что произведение числа, оканчивающегося на “7”, и числа, оканчивающегося на “2”, закончится на “4″. Но с серединной частью у меня будут проблемы. В чате я получил ответ 742 021 104; правильный ответ — 742 934 304.
Юньтянь Дэн (Yuntian Deng), доцент Университета Ватерлоо, специализирующийся на искусственном интеллекте, тщательно проанализировал способности ChatGPT к умножению в ходе исследования, проведенного ранее в этом году. Он и его соавторы обнаружили, что стандартная модель GPT-4o с трудом справляется с умножением более чем на два числа, содержащих более четырех цифр каждое (например, 3459 x 5284).
“GPT-4o не справляется с умножением нескольких цифр, достигая точности менее чем на 30% по сравнению с четырехзначными задачами”, — сказал Дэн TechCrunch. “Многозначное умножение является сложной задачей для языковых моделей, поскольку ошибка на любом промежуточном этапе может привести к неправильным конечным результатам”.
Является ли o1 от OpenAI хорошим калькулятором? Мы протестировали его на умножении до 20 × 20 — o1 с приличной точностью справляется с умножением до 9× 9, в то время как gpt-4o с трудом справляется с умножением до 4× 4. В контексте эта задача решается с помощью небольшого фильма, использующего неявный CoT с поэтапной интернализацией. 1/4 pic.twitter.com/et5DB9bhNL
— Юньтянь Дэн (@yuntiandeng), 17 сентября 2024 г.
Итак, математические навыки навсегда останутся в стороне от общения в чате? Или есть основания полагать, что когда-нибудь бот сможет так же хорошо разбираться в числах, как люди (или TI-84, если уж на то пошло)?
Дэн полон надежд. В ходе исследования он и его коллеги также протестировали o1, “рассуждающую” модель OpenAI, которая недавно появилась в ChatGPT. O1, который “продумывает” задачи шаг за шагом, прежде чем ответить на них, работает намного лучше, чем GPT-4o, решая задачи на умножение девяти цифр на девять цифр примерно в половине случаев.
“Возможно, модель решает проблему способами, отличающимися от того, как мы решаем ее вручную”, — сказал Дэн. “Это заставляет нас задуматься о внутреннем подходе модели и о том, чем он отличается от человеческого мышления”.
Дэн считает, что прогресс указывает на то, что, по крайней мере, некоторые типы математических задач, одной из которых является задача умножения, в конечном итоге будут “полностью решены” системами, подобными ChatGPT. “Это четко определенная задача с известными алгоритмами”, — сказал Дэн. “Мы уже наблюдаем значительные улучшения при переходе от GPT-4o к o1, так что очевидно, что возможности логического мышления улучшаются”.
Только не избавляйтесь от своего калькулятора в ближайшее время.
Источник: techcrunch.com