Baidu запрещает Google и Bing собирать контент для обучения AI

Baidu запрещает Google и Bing собирать контент для обучения AI

Китайский интернет-поисковик Baidu обновил свой сервис Baike, похожий на Википедию, чтобы не позволить Google и Microsoft Bing использовать его содержимое.

Это изменение было отмечено в последнем обновлении файла Baidu Baike robots.txt, который закрывает доступ для краулеров Googlebot и Bingbot.

По данным Wayback Machine, изменение произошло 8 августа. Ранее поисковым системам Google и Bing было разрешено индексировать центральное хранилище Baidu Baike, включающее почти 30 миллионов записей, хотя некоторые целевые поддомены на сайте были ограничены.

Эти действия Baidu происходят на фоне растущего спроса на большие наборы данных, используемые для обучения моделей и приложений искусственного интеллекта. Она последовала за аналогичными действиями других компаний по защите своего онлайн-контента. В июле Reddit заблокировал различные поисковые системы, кроме Google, от индексации своих постов и обсуждений. Google, как и Reddit, имеет финансовое соглашение с Reddit на доступ к данным для обучения своих сервисов искусственного интеллекта.

По данным источников, в прошлом году Microsoft рассматривала возможность ограничения доступа к данным интернет-поиска для конкурирующих поисковых систем; это было наиболее актуально для тех, кто использовал данные для чат-ботов и сервисов генеративного ИИ.

Тем временем китайская Википедия, содержащая 1,43 миллиона записей, остается доступной для поисковых систем. Исследование, проведенное газетой South China Morning Post, показало, что записи из Baidu Baike по-прежнему появляются в поисковых системах Bing и Google. Возможно, поисковые системы продолжают использовать старый кэшированный контент.

Подобные действия происходят на фоне того, что разработчики генеративного ИИ по всему миру все чаще сотрудничают с издателями контента, пытаясь получить доступ к наиболее качественному контенту для своих проектов. Например, относительно недавно OpenAI подписал соглашение с журналом Time о доступе ко всему архиву, начиная с самого первого дня выхода журнала более века назад. Аналогичное партнерство было заключено с Financial Times в апреле.

Решение Baidu ограничить доступ к контенту Baidu Baike для основных поисковых систем подчеркивает растущую важность данных в эпоху ИИ. Поскольку компании вкладывают значительные средства в развитие ИИ, ценность больших, контролируемых наборов данных значительно возросла. Это привело к изменению методов управления доступом онлайн-платформ к своему контенту: многие решили ограничить или монетизировать доступ к своим данным.

По мере развития индустрии ИИ, вероятно, все больше компаний будут пересматривать свою политику обмена данными, что может привести к дальнейшим изменениям в способах индексирования и доступа к информации в Интернете.

Total
1
Shares
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Предыдущая новость
Runway выделяет $5 млн на финансирование до 100 фильмов созданным ИИ

Runway выделяет $5 млн на финансирование до 100 фильмов с использованием видео с ИИ

Следующая новость

Нехудожественные книги, исследующие влияние ИИ на общество

Читайте также