В борьбе за лидерство в области ИИ Google активно сравнивает свой Gemini с конкурентной моделью Anthropic — Claude. По данным, полученным TechCrunch, подрядчики Google оценивают ответы Gemini, сопоставляя их с результатами работы Claude. Однако остаётся открытым вопрос: получил ли Google разрешение на использование модели Claude для таких тестов?
Как проходит оценка?
Сравнение моделей — стандартная практика в индустрии ИИ. Обычно это происходит через тестирование на отраслевых бенчмарках, но в случае с Gemini и Claude подход более персонализирован. Подрядчикам Google выделяется до 30 минут на анализ каждого ответа по множеству критериев: от правдивости до лаконичности.
Интересно, что в некоторых случаях подрядчики замечали, как Gemini выдаёт ответы, содержащие элементы, противоречащие правилам безопасности. Например, один из респондентов отметил, что ответ Gemini включал «откровенные элементы», в то время как Claude вообще отказался отвечать на небезопасный запрос.
Claude: строгий подход к безопасности
Из внутренних обсуждений подрядчиков следует, что Claude обладает самыми жёсткими настройками безопасности среди всех протестированных моделей. Модель избегает выполнения запросов, которые могут быть небезопасными, например, симуляции других виртуальных ассистентов.
Google и Anthropic: конфликт интересов?
Стоит напомнить, что Google является крупным инвестором Anthropic, а коммерческие условия Anthropic запрещают использовать Claude для разработки конкурирующих продуктов без их разрешения. Представитель DeepMind, подразделения Google, заявляет, что Claude не используется для обучения Gemini, а тесты на соответствие проводятся исключительно в рамках отраслевых стандартов.
Однако Anthropic пока не комментирует ситуацию, оставляя место для предположений о возможных нарушениях.
Проблемы с точностью Gemini
Согласно утечкам, подрядчики Google высказывают обеспокоенность: Gemini иногда генерирует недостоверную информацию на чувствительные темы, включая здравоохранение. Это может подорвать доверие к модели в критически важных сферах.
Сравнение Gemini и Claude демонстрирует, насколько жёсткой становится конкуренция в мире ИИ. Безопасность, точность и прозрачность — ключевые критерии, на которые будут обращать внимание не только разработчики, но и пользователи. Останется ли Google в рамках допустимых практик, покажет время.