Экспериментальная модель Gemini 1.5 Pro от Google превзошла GPT-4o от OpenAI в контрольных тестах генеративного ИИ.
На протяжении последнего года GPT-4o от OpenAI и Claude-3 от Anthropic доминировали в этой области. Однако последняя версия Gemini 1.5 Pro, похоже, вышла вперед.
Одним из наиболее широко признанных эталонных тестов в сообществе ИИ является LMSYS Chatbot Arena, которая оценивает модели по различным задачам и присваивает общий балл компетентности. В этом рейтинге GPT-4o набрал 1286 баллов, а Claude-3 получил достойные 1271 балл. Предыдущая версия Gemini 1.5 Pro набрала 1261 балл.
Экспериментальная версия Gemini 1.5 Pro (обозначенная как Gemini 1.5 Pro 0801) превзошла своих ближайших конкурентов, набрав впечатляющие 1300 баллов. Это значительное улучшение говорит о том, что последняя модель Google может обладать большими общими возможностями, чем ее конкуренты.
Стоит отметить, что хотя эталонные тесты дают ценное представление о производительности модели ИИ, они не всегда могут точно отражать полный спектр ее возможностей или ограничений в реальных приложениях.
Несмотря на текущую доступность Gemini 1.5 Pro, тот факт, что он помечен как ранний релиз или находится в фазе тестирования, говорит о том, что Google может все еще вносить корректировки или даже отозвать модель по соображениям безопасности или согласованности.
Это событие знаменует собой важную веху в продолжающейся гонке за превосходство в области ИИ среди технологических гигантов. Способность Google превзойти OpenAI и Anthropic в эталонных показателях демонстрирует быстрые темпы инноваций в этой области и интенсивную конкуренцию, движущую этими достижениями.
По мере развития ландшафта ИИ будет интересно посмотреть, как OpenAI и Anthropic ответят на этот вызов от Google. Смогут ли они вернуть свои позиции на вершине рейтинга, или Google установил новый стандарт производительности генеративного ИИ?