Baidu запрещает Google и Bing собирать контент для обучения ИИ

Китайский поставщик интернет-поиска Baidu обновил свой похожий на Википедию сервис Baike, чтобы запретить Google и Microsoft Bing копировать его контент.

Это изменение было замечено в последнем обновлении файла robots.txt Baidu Baike, который запрещает доступ роботам Googlebot и Bingbot.

По данным Wayback Machine, изменение произошло в августе 8. Ранее поисковым системам Google и Bing было разрешено индексировать центральный репозиторий Baidu Baike, который включает почти 30 миллионов записей, хотя некоторые целевые поддомены на сайте были ограничены.

Это действие Baidu происходит на фоне растущего спроса на большие наборы данных, используемые для обучения моделей и приложений искусственного интеллекта. Это следует за аналогичными шагами других компаний по защите своего онлайн-контента. В июле Reddit заблокировал индексацию своих постов и обсуждений различными поисковыми системами, кроме Google. Google, как и Reddit, имеет финансовое соглашение с Reddit на доступ к данным для обучения своих служб ИИ.

По данным источников, в прошлом году Microsoft рассматривала возможность ограничения доступа к данным интернет-поиска для конкурирующих операторов поисковых систем; это было наиболее актуально для тех, кто использовал данные для чат-ботов и генеративных служб ИИ.

Между тем, китайская Википедия с ее 1,43 миллионами записей остается доступной для поисковых роботов. Опрос, проведенный South China Morning Post, показал, что записи из Baidu Baike по-прежнему появляются в результатах поиска Bing и Google. Возможно, поисковые системы продолжают использовать старый кэшированный контент.

Такой шаг появляется на фоне того, что разработчики генеративного ИИ по всему миру все чаще работают с издателями контента в попытке получить доступ к контенту самого высокого качества для своих проектов. Например, сравнительно недавно OpenAI подписала соглашение с журналом Time о доступе ко всему архиву, начиная с самого первого дня публикации журнала более века назад. Аналогичное партнерство было подписано с Financial Times в апреле.

Решение Baidu ограничить доступ к своему контенту Baidu Baike для основных поисковых систем подчеркивает растущую важность данных в эпоху ИИ. Поскольку компании вкладывают значительные средства в разработку ИИ, ценность больших, курируемых наборов данных значительно возросла. Это привело к изменению того, как онлайн-платформы управляют доступом к своему контенту, и многие решили ограничить или монетизировать доступ к своим данным.

Поскольку индустрия ИИ продолжает развиваться, вполне вероятно, что все больше компаний пересмотрят свою политику обмена данными, что может привести к дальнейшим изменениям в том, как информация индексируется и доступна в Интернете.

Источник: www.artificialintelligence-news.com

Total
0
Shares
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Предыдущая новость

Улучшение медицинской документации с помощью IDP

Следующая новость

Walmart и Amazon трансформируют розничную торговлю с помощью ИИ

Читайте также