Компании не подтверждают намерения о прозрачности обучения ИИ согласно законам Калифорнии

05.10.2024

Компании не подтверждают намерения о прозрачности обучения ИИ согласно законам Калифорнии

В воскресенье губернатор Калифорнии Гэвин Ньюсом подписал законопроект AB-2013, требующий от компаний, разрабатывающих системы искусственного интеллекта, публиковать сводную информацию высокого уровня о данных, которые они использовали для обучения своих систем. Помимо прочего, в резюме должно быть указано, кому принадлежат данные и как они были получены или лицензированы, а также содержится ли в них какая-либо защищенная авторским правом или персональная информация.

Немногие компании, занимающиеся ИИ, готовы сказать, будут ли они соблюдать требования.

TechCrunch обратился к крупным игрокам в области искусственного интеллекта, включая OpenAI, Anthropic, Microsoft, Google, Amazon, Meta, а также стартапы Stability AI, Midjourney, Udio, Suno, Runway и Luma Labs. Ответили менее половины, а один поставщик — Microsoft — явно отказался от комментариев.

Только Stability, Runway и OpenAI сообщили TechCrunch, что они будут соответствовать требованиям AB-2013.

“OpenAI соблюдает законодательство в юрисдикциях, в которых мы работаем, в том числе и в этой”, – сказал представитель OpenAI. Представитель Stability заявил, что компания “поддерживает продуманное регулирование, которое защищает общественность и в то же время не препятствует инновациям”.

Справедливости ради, требования AB-2013 к раскрытию информации вступают в силу не сразу. Хотя они применимы к системам, выпущенным в январе 2022 года или после этой даты (например, ChatGPT и Stable Diffusion), у компаний есть время до января 2026 года, чтобы начать публикацию сводных данных об обучении. Закон также применяется только к системам, доступным для жителей Калифорнии, что оставляет некоторое пространство для маневра.

Но может быть и другая причина молчания поставщиков по этому вопросу, и она связана с тем, как обучаются большинство систем искусственного интеллекта.

Данные об обучении часто поступают из Интернета. Поставщики собирают огромное количество изображений, песен, видео и многого другого с веб-сайтов и обучают на них свои системы.

Несколько лет назад для разработчиков ИИ было обычной практикой указывать источники своих обучающих данных, как правило, в техническом документе, сопровождающем выпуск модели. Google, например, однажды сообщила, что обучала раннюю версию своего семейства моделей для генерации изображений Imagen на общедоступном наборе данных LAION. Во многих старых статьях упоминается The Pile – коллекция обучающих текстов с открытым исходным кодом, включающая академические исследования и базы кода.

На современном жестком рынке состав наборов обучающих данных считается конкурентным преимуществом, и компании ссылаются на это как на одну из главных причин, по которой они не разглашают их. Но подробная информация об обучающих данных также может представлять юридическую угрозу для разработчиков. LAION содержит ссылки на изображения, защищенные авторским правом и нарушающие конфиденциальность, а The Pile содержит Books3 – библиотеку пиратских произведений Стивена Кинга и других авторов.

Уже подано несколько судебных исков о неправомерном использовании данных об обучении, и с каждым месяцем их становится все больше.

Авторы и издатели утверждают, что OpenAI, Anthropic и Meta использовали защищенные авторским правом книги — некоторые из Books3 — для обучения. Музыкальные лейблы подали на Udio и Suno в суд за то, что они якобы проводили обучение по песням, не выплачивая компенсации музыкантам. А художники подали коллективные иски против Stability и Midjourney за то, что, по их словам, практика сбора данных приравнивается к краже.

Нетрудно понять, что AB-2013 может стать проблемой для продавцов, пытающихся избежать судебных баталий. Закон требует обнародования ряда потенциально компрометирующих сведений о наборах данных для обучения, включая уведомление с указанием того, когда эти наборы были впервые использованы и продолжается ли сбор данных.

AB-2013 довольно широк по охвату. Любая организация, которая “существенно модифицирует” систему искусственного интеллекта — то есть настраивает или переобучает ее, – также обязана публиковать информацию о данных обучения, которые они использовали для этого. В законе есть несколько изъятий, но в основном они касаются систем искусственного интеллекта, используемых в сфере кибербезопасности и обороны, например, тех, которые используются для “управления воздушными судами в национальном воздушном пространстве”.

Конечно, многие поставщики считают, что доктрина, известная как добросовестное использование, обеспечивает юридическое прикрытие, и они отстаивают это в суде и в публичных заявлениях. Некоторые из них, такие как Meta и Google, изменили настройки своих платформ и условия предоставления услуг, чтобы использовать больше пользовательских данных для обучения.

Подстегиваемые конкурентным давлением и ставкой на то, что защита от добросовестного использования в конечном итоге победит, некоторые компании начали проводить обучение по использованию данных, защищенных интеллектуальной собственностью. Согласно сообщению Reuters, Meta в какой-то момент использовала защищенные авторским правом книги для обучения ИИ, несмотря на предупреждения своих юристов. Есть свидетельства того, что Runway использовала фильмы Netflix и Disney для обучения своих систем генерации видео. А OpenAI, как сообщается, транскрибировала видео с YouTube без ведома создателей для разработки моделей, включая GPT-4.

Как мы уже писали ранее, в результате поставщики генеративного ИИ остаются безнаказанными, независимо от того, раскрывают они данные о системном обучении или нет. Суды могут в конечном итоге встать на сторону сторонников добросовестного использования и решить, что генеративный ИИ достаточно преобразующий, а не механизм плагиата, как утверждают New York Times и другие истцы.

В более драматичном сценарии AB-2013 может привести к тому, что поставщики не будут продавать определенные модели в Калифорнии или выпустят версии моделей для калифорнийцев, обученных только добросовестному использованию и лицензионным наборам данных. Некоторые поставщики могут решить, что самый безопасный способ действий с AB-2013 — это тот, который позволяет избежать компрометирующей информации и судебных разбирательств.

Предполагая, что закон не будет оспорен и / или отменен, у нас будет четкая картина к крайнему сроку AB-2013, чуть более чем через год.

Источник: techcrunch.com