Почему ChatGPT очень плох в математике?

Почему ChatGPT очень плох в математике?

Почему у ChatGPT так плохо с математикой? Кайл Уиггерс, 2 октября 2024 г.

Если вы когда-либо пытались использовать ChatGPT в качестве калькулятора, вы почти наверняка заметили его недостаток: чат-бот не силен в математике. И в этом отношении он не уникален среди ИИ.

Клод из Anthropic не может решить элементарные словесные задачи. Близнецы не понимают квадратные уравнения. А Лама из Meta с трудом справляется с простым сложением.

Так как же получается, что эти боты могут писать монологи, но при этом запутываются в арифметике на уровне начальной школы?

С этим как-то связана токенизация. Процесс разделения данных на фрагменты (например, разбиение слова “фантастический” на слоги “фанат”, “тас” и “тик”), токенизация помогает ИИ более плотно кодировать информацию. Но поскольку токенизаторы — модели искусственного интеллекта, которые выполняют токенизацию, — на самом деле не знают, что такое числа, они часто в конечном итоге разрушают связи между цифрами. Например, токенизатор может рассматривать число “380” как один токен, но представлять “381” в виде пары цифр (“38” и “1”).

Но токенизация – не единственная причина, по которой математика является слабым местом ИИ.

Системы искусственного интеллекта – это статистические машины. Обученные на множестве примеров, они изучают закономерности в этих примерах, чтобы делать прогнозы (например, фраза “кому” в электронном письме часто предшествует фразе “это может касаться”). Например, учитывая задачу умножения 5,7897 x 1,2832, ChatGPT, который сталкивался с множеством задач умножения, скорее всего, сделает вывод, что произведение числа, оканчивающегося на “7”, и числа, оканчивающегося на “2”, закончится на “4″. Но с серединной частью у меня будут проблемы. В чате я получил ответ 742 021 104; правильный ответ – 742 934 304.

Юньтянь Дэн (Yuntian Deng), доцент Университета Ватерлоо, специализирующийся на искусственном интеллекте, тщательно проанализировал способности ChatGPT к умножению в ходе исследования, проведенного ранее в этом году. Он и его соавторы обнаружили, что стандартная модель GPT-4o с трудом справляется с умножением более чем на два числа, содержащих более четырех цифр каждое (например, 3459 x 5284).

“GPT-4o не справляется с умножением нескольких цифр, достигая точности менее чем на 30% по сравнению с четырехзначными задачами”, – сказал Дэн TechCrunch. “Многозначное умножение является сложной задачей для языковых моделей, поскольку ошибка на любом промежуточном этапе может привести к неправильным конечным результатам”.

Итак, математические навыки навсегда останутся в стороне от общения в чате? Или есть основания полагать, что когда-нибудь бот сможет так же хорошо разбираться в числах, как люди (или TI-84, если уж на то пошло)?

Дэн полон надежд. В ходе исследования он и его коллеги также протестировали o1, “рассуждающую” модель OpenAI, которая недавно появилась в ChatGPT. O1, который “продумывает” задачи шаг за шагом, прежде чем ответить на них, работает намного лучше, чем GPT-4o, решая задачи на умножение девяти цифр на девять цифр примерно в половине случаев.

“Возможно, модель решает проблему способами, отличающимися от того, как мы решаем ее вручную”, – сказал Дэн. “Это заставляет нас задуматься о внутреннем подходе модели и о том, чем он отличается от человеческого мышления”.

Дэн считает, что прогресс указывает на то, что, по крайней мере, некоторые типы математических задач, одной из которых является задача умножения, в конечном итоге будут “полностью решены” системами, подобными ChatGPT. “Это четко определенная задача с известными алгоритмами”, – сказал Дэн. “Мы уже наблюдаем значительные улучшения при переходе от GPT-4o к o1, так что очевидно, что возможности логического мышления улучшаются”.

Только не избавляйтесь от своего калькулятора в ближайшее время.

Источник: techcrunch.com

Total
1
Shares
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Предыдущая новость
Poolside по разработке ПО для ИИ привлек $500 млн от eBay, Nvidia

Poolside по разработке ПО для ИИ привлек $500 млн от eBay, Nvidia

Следующая новость
Google Maps покажет обзоры с использованием ИИ в Индии

Google Maps покажет обзоры с использованием ИИ в Индии

Читайте также

Великобритания корректирует стратегию ИИ в соответствии с бюджетными ограничениями

Новое правительство Великобритании разрабатывает стратегию Искусственного Интеллекта, в которой приоритет отдается внедрению ИИ в государственном секторе, а не…
Читать