Почему ChatGPT очень плох в математике?

Почему ChatGPT очень плох в математике?

Почему у ChatGPT так плохо с математикой? Кайл Уиггерс, 2 октября 2024 г.

Если вы когда-либо пытались использовать ChatGPT в качестве калькулятора, вы почти наверняка заметили его недостаток: чат-бот не силен в математике. И в этом отношении он не уникален среди ИИ.

Клод из Anthropic не может решить элементарные словесные задачи. Близнецы не понимают квадратные уравнения. А Лама из Meta с трудом справляется с простым сложением.

Так как же получается, что эти боты могут писать монологи, но при этом запутываются в арифметике на уровне начальной школы?

С этим как-то связана токенизация. Процесс разделения данных на фрагменты (например, разбиение слова “фантастический” на слоги “фанат”, “тас” и “тик”), токенизация помогает ИИ более плотно кодировать информацию. Но поскольку токенизаторы — модели искусственного интеллекта, которые выполняют токенизацию, — на самом деле не знают, что такое числа, они часто в конечном итоге разрушают связи между цифрами. Например, токенизатор может рассматривать число “380” как один токен, но представлять “381” в виде пары цифр (“38” и “1”).

Но токенизация — не единственная причина, по которой математика является слабым местом ИИ.

Системы искусственного интеллекта — это статистические машины. Обученные на множестве примеров, они изучают закономерности в этих примерах, чтобы делать прогнозы (например, фраза “кому” в электронном письме часто предшествует фразе “это может касаться”). Например, учитывая задачу умножения 5,7897 x 1,2832, ChatGPT, который сталкивался с множеством задач умножения, скорее всего, сделает вывод, что произведение числа, оканчивающегося на “7”, и числа, оканчивающегося на “2”, закончится на “4″. Но с серединной частью у меня будут проблемы. В чате я получил ответ 742 021 104; правильный ответ — 742 934 304.

Юньтянь Дэн (Yuntian Deng), доцент Университета Ватерлоо, специализирующийся на искусственном интеллекте, тщательно проанализировал способности ChatGPT к умножению в ходе исследования, проведенного ранее в этом году. Он и его соавторы обнаружили, что стандартная модель GPT-4o с трудом справляется с умножением более чем на два числа, содержащих более четырех цифр каждое (например, 3459 x 5284).

“GPT-4o не справляется с умножением нескольких цифр, достигая точности менее чем на 30% по сравнению с четырехзначными задачами”, — сказал Дэн TechCrunch. “Многозначное умножение является сложной задачей для языковых моделей, поскольку ошибка на любом промежуточном этапе может привести к неправильным конечным результатам”.

Итак, математические навыки навсегда останутся в стороне от общения в чате? Или есть основания полагать, что когда-нибудь бот сможет так же хорошо разбираться в числах, как люди (или TI-84, если уж на то пошло)?

Дэн полон надежд. В ходе исследования он и его коллеги также протестировали o1, “рассуждающую” модель OpenAI, которая недавно появилась в ChatGPT. O1, который “продумывает” задачи шаг за шагом, прежде чем ответить на них, работает намного лучше, чем GPT-4o, решая задачи на умножение девяти цифр на девять цифр примерно в половине случаев.

“Возможно, модель решает проблему способами, отличающимися от того, как мы решаем ее вручную”, — сказал Дэн. “Это заставляет нас задуматься о внутреннем подходе модели и о том, чем он отличается от человеческого мышления”.

Дэн считает, что прогресс указывает на то, что, по крайней мере, некоторые типы математических задач, одной из которых является задача умножения, в конечном итоге будут “полностью решены” системами, подобными ChatGPT. “Это четко определенная задача с известными алгоритмами”, — сказал Дэн. “Мы уже наблюдаем значительные улучшения при переходе от GPT-4o к o1, так что очевидно, что возможности логического мышления улучшаются”.

Только не избавляйтесь от своего калькулятора в ближайшее время.

Источник: techcrunch.com

Total
1
Shares
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Предыдущая новость
Poolside по разработке ПО для ИИ привлек $500 млн от eBay, Nvidia

Poolside по разработке ПО для ИИ привлек $500 млн от eBay, Nvidia

Следующая новость
Google Maps покажет обзоры с использованием ИИ в Индии

Google Maps покажет обзоры с использованием ИИ в Индии

Читайте также
Numeric привлекает $28 млн для автоматизации бухгалтерского учета с использованием ИИ

Numeric привлекает $28 млн для автоматизации бухгалтерского учета с использованием ИИ

  Numeric Enterprise Numeric выделяет 28 миллионов долларов на автоматизацию бухгалтерского учета серии А с использованием искусственного интеллекта…
Читать
Началась вторая волна искусственного интеллекта

Началась вторая волна искусственного интеллекта

Множество стартапов стремятся создать модели, которые могут создавать всё более качественное программное обеспечение. Они утверждают, что это кратчайший путь к искусственному интеллекту.
Читать
Раунд финансирования Lightmatter на $400 млн вызвал ажиотаж у AI гипермасштабируемых компаний в ожидании фотонных дата-центров

Раунд финансирования Lightmatter на $400 млн вызвал ажиотаж у AI гипермасштабируемых компаний в ожидании фотонных дата-центров

Стартап в области фотонных вычислений Lightmatter собрал 400 миллионов долларов, чтобы устранить проблемы в одном из современных центров…
Читать