Модернизированный Claude 3.5 Sonnet демонстрирует существенные улучшения по всем показателям, особенно заметные улучшения в возможностях кодирования. Модель достигла впечатляющих 49,0% на бенчмарке SWE-bench Verified, превзойдя все общедоступные модели, включая предложения OpenAI и специализированные системы кодирования.
В новаторской разработке Anthropic представила функциональность использования компьютера, которая позволяет Claude взаимодействовать с компьютерами подобно людям: просматривать экраны, управлять курсорами, щелкать и печатать. Эта возможность, которая в настоящее время находится в стадии публичной бета-версии, делает Claude 3.5 Sonnet первой передовой моделью ИИ, предлагающей такую функциональность.
Несколько крупных технологических компаний уже начали внедрять эти новые возможности.
“Обновленный Claude 3.5 Sonnet представляет собой значительный скачок в кодировании с использованием ИИ,” сообщает GitLab, который отметил до 10% более сильное обоснование в вариантах использования без дополнительной задержки.
Новая модель Claude 3.5 Haiku, выпуск которой запланирован на конец этого месяца, соответствует производительности предыдущей модели Claude 3 Opus, сохраняя при этом экономическую эффективность и скорость. Она достигла 40,6% на SWE-bench Verified, превзойдя многие конкурирующие модели, включая оригинальный Claude 3.5 Sonnet и GPT-4o.
Что касается возможностей управления компьютером, Anthropic придерживается взвешенного подхода, признавая текущие ограничения, но при этом подчеркивая потенциал. В тесте OSWorld, который оценивает навигацию по интерфейсу компьютера, Claude 3.5 Sonnet достиг 14,9% в тестах только со снимками экрана, значительно превзойдя следующую лучшую систему с 7,8%.
Разработки прошли строгие оценки безопасности, а предварительные испытания проводились в партнерстве с Институтами безопасности ИИ США и Великобритании. Anthropic утверждает, что стандарт ASL-2, подробно описанный в их политике ответственного масштабирования, остается подходящим для этих моделей.
Источник: www.artificialintelligence-news.com