Тибор Блахо, инженер-программист с репутацией специалиста по точной утечке информации о будущих продуктах искусственного интеллекта, утверждает, что обнаружил доказательства использования инструмента OpenAI Operator, о котором давно ходили слухи. Издания, в том числе Bloomberg, ранее сообщали об Operator, который, как утверждается, является “агентной” системой, способной автономно выполнять такие задачи, как написание кода и бронирование поездок.
Согласно информации, OpenAI планирует выпустить Operator в январе. Код, обнаруженный Blaho на этих выходных, добавляет достоверности этому сообщению.
Клиент OpenAI ChatGPT для macOS получил опции, которые пока скрыты, для определения сочетаний клавиш “Переключить оператора” и “Принудительно завершить работу оператора”, согласно Blaho. По словам Блахо, OpenAI добавила ссылки на Operator на своем веб—сайте, хотя эти ссылки еще не опубликованы.
Подтверждено – в настольном приложении ChatGPT для macOS есть скрытые опции для определения ярлыков для запуска на рабочем столе, чтобы “Переключить оператора” и “Принудительно завершить работу с оператором”. https://t.co/rSFobi4iPN pic.twitter.com/j19YSlexAS
Тибор Блахо (@btibor91), 19 января 2025 г.
По словам Блахо, на сайте OpenAI также есть еще не опубликованные таблицы, сравнивающие производительность Operator с другими системами искусственного интеллекта, использующими компьютеры. Таблицы вполне могут быть заполнителями. Но если цифры точны, это означает, что оператор не на все 100% надежен, в зависимости от задачи.
На веб–сайте OpenAI уже есть ссылки на Operator/OpenAI CUA (Computer Use Agent) — “Системная карточка оператора”, “Таблица оценки результатов исследований оператора” и “Таблица частоты отказов оператора”
Включая сравнение с использованием компьютера Claude 3.5 Sonnet, Google Mariner и т.д.
(предварительный просмотр таблиц… pic.twitter.com/OOBgC3ddkU
— Тибор Блахо (@btibor91), 20 января 2025 г.
В тесте OSWorld, который пытается имитировать реальную компьютерную среду, “OpenAI Computer Use Agent (CUA)” — возможно, модель искусственного интеллекта, обеспечивающая работу оператора, — набирает 38,1% баллов, опережая модель управления компьютером от Anthropic, но значительно уступая 72,4% баллов, полученных людьми. OpenAI CUA превосходит производительность человека в WebVoyager, который оценивает способность ИИ ориентироваться на веб-сайтах и взаимодействовать с ними. Но, согласно просочившимся данным, эта модель не дотягивает до показателей человеческого уровня в другом веб-тесте, WebArena.
Оператор также сталкивается с трудностями при выполнении задач, которые, если верить утечке, мог бы легко выполнить и человек. В ходе теста, в котором оператору предлагалось зарегистрироваться у облачного провайдера и запустить виртуальную машину, оператору удавалось выполнить их только в 60% случаев. Оператору удалось создать биткоин-кошелек только в 10% случаев.
Мы обратились к OpenAI за комментариями и обновим этот материал, если получим ответ.
Скорый выход OpenAI на рынок ИИ-агентов связан с тем, что конкуренты, в том числе вышеупомянутые Anthropic, Google и другие, пытаются завоевать этот зарождающийся сегмент. ИИ-агенты могут быть рискованными и спекулятивными, но технологические гиганты уже рекламируют их как следующее крупное достижение в области ИИ. По данным аналитической компании Markets and Markets, к 2030 году объем рынка агентов с искусственным интеллектом может составить 47,1 миллиарда долларов.
Сегодня агенты довольно примитивны. Но некоторые эксперты высказывают опасения по поводу их безопасности в случае быстрого совершенствования технологии.
Одна из просочившихся в сеть диаграмм показывает, что оператор успешно справляется с выбранными оценками безопасности, включая тесты, которые пытаются заставить систему выполнять “незаконные действия” и осуществлять поиск “конфиденциальных персональных данных”. Как сообщается, тестирование безопасности является одной из причин длительного цикла разработки оператора. В недавнем посте на X сооснователь OpenAI Войцех Заремба раскритиковал Anthropic за выпуск агента, который, по его словам, не обеспечивает безопасность.
“Я могу только представить негативную реакцию, если OpenAI выпустит аналогичный релиз”, — написал Заремба.
Стоит отметить, что OpenAI подвергся критике со стороны исследователей искусственного интеллекта, в том числе бывших сотрудников, за то, что они якобы не уделяли особого внимания безопасности работы в пользу быстрого внедрения своей технологии.
Источник: techcrunch.com