Ранее этой осенью OpenAI согласилась предоставить две виртуальные машины, чтобы консультанты The Times и Daily News могли выполнять поиск защищенного авторским правом контента в своих обучающих наборах для искусственного интеллекта. (Виртуальные машины — это компьютеры на базе программного обеспечения, которые существуют в операционной системе другого компьютера и часто используются для тестирования, резервного копирования данных и запуска приложений.) В письме адвокаты издателей сообщают, что с 1 ноября они и нанятые ими эксперты потратили более 150 часов на поиск обучающих данных OpenAI.
Но 14 ноября инженеры OpenAI стерли все поисковые данные издателей, хранящиеся на одной из виртуальных машин, согласно вышеупомянутому письму, которое было подано в окружной суд США по Южному округу Нью-Йорка поздно вечером в среду.
OpenAI попытался восстановить данные — и в основном добился успеха. Однако, поскольку структура папок и имена файлов были “безвозвратно” утеряны, восстановленные данные “не могут быть использованы для определения того, где были использованы скопированные статьи истцов для создания моделей [OpenAI]”, — говорится в письме.
“Новостные истцы были вынуждены воссоздавать свою работу с нуля, затрачивая значительное количество человеко-часов и компьютерного времени на обработку”, — написал адвокат The Times и Daily News. “Новостные истцы только вчера узнали, что восстановленные данные непригодны для использования и что работа экспертов и юристов, проделанная за целую неделю, должна быть выполнена заново, поэтому это дополнительное письмо было подано сегодня”.
Адвокаты истцов разъясняют, что у них нет оснований полагать, что удаление было намеренным. Но они заявляют, что инцидент подчеркивает, что OpenAI “находится в наилучшем положении для поиска потенциально контрафактного контента в своих собственных наборах данных” с использованием собственных инструментов.
Представитель OpenAI отказался предоставить заявление.
Но поздно вечером в пятницу, 22 ноября, адвокат OpenAI представил ответ на письмо, отправленное юристами The Times и Daily News в среду. В своем ответе адвокаты OpenAI недвусмысленно отрицали, что OpenAI удалил какие-либо доказательства, и вместо этого предположили, что истцы были виноваты в неправильной настройке системы, которая привела к технической проблеме.
“Истцы потребовали изменить конфигурацию одной из нескольких машин, которые OpenAI предоставила для поиска обучающих наборов данных”, — написал адвокат OpenAI. “Однако внесение изменений, запрошенных истцами, привело к удалению структуры папок и некоторых имен файлов на одном жестком диске — диске, который должен был использоваться в качестве временного кэша … В любом случае, нет оснований полагать, что какие-либо файлы действительно были потеряны”.
В этом и других случаях OpenAI утверждал, что модели обучения с использованием общедоступных данных, включая статьи из Times и Daily News, используются добросовестно. Другими словами, при создании моделей, подобных GPT-4o, которые “учатся” на миллиардах примеров из электронных книг, эссе и многого другого, чтобы генерировать текст, похожий на человеческий, OpenAI считает, что не требуется лицензировать или иным образом оплачивать примеры, даже если компания зарабатывает на этих моделях деньги.
Тем не менее, OpenAI подписала лицензионные соглашения с растущим числом новых издателей, включая Associated Press, владельца Business Insider Акселя Спрингера, Financial Times, материнскую компанию People Дотдэша Мередита и News Corp. OpenAI отказалась обнародовать условия этих сделок, но, как сообщается, одному из партнеров по контенту, Dotdash, платят по меньшей мере 16 миллионов долларов в год.
OpenAI не подтвердила и не опровергла, что она обучала свои системы искусственного интеллекта каким-либо конкретным работам, защищенным авторским правом, без разрешения.
Источник: techcrunch.com