Если вы пользовались поиском в ChatGPT или Perplexity, вы знаете, что возможность поиска в Интернете и получения ссылок в Интернете значительно улучшает работу этих чат-ботов с искусственным интеллектом. Результаты лучше, когда они содержат своевременную информацию, а веб-поиск может уменьшить так называемые галлюцинации (т.е. когда генерирующий ИИ выдает неверную информацию).
Вот почему французский стартап Linkup разрабатывает API, который позволяет разработчикам получать доступ к веб-контенту из надежных источников премиум-класса и передавать результаты в large language model (LLM), чтобы дополнить его ответы. Многие разработчики искусственного интеллекта называют этот процесс генерацией расширенного поиска (или RAG).
Что еще более важно, будущее ботов-скрейперов остается неопределенным. Если между издателями контента и организациями, проводящими скрейпинг веб-страниц, не будет заключено предварительное финансовое соглашение, эти боты будут безвозмездно извлекать контент из открытого Интернета, и многие люди будут недовольны этой сделкой, что усиливает контроль со стороны регулирующих органов в отношении обучения искусственному интеллекту.
В настоящее время также рассматриваются громкие судебные дела, такие как продолжающийся судебный процесс между OpenAI, создателем ChatGPT, и New York Times, так что ситуация с веб-скрапингом может измениться в ближайшем будущем. Именно поэтому OpenAI подписала многолетние соглашения о лицензировании контента с такими крупными издателями, как AP, Axel Springer, Condé Nast, El País, Financial Times, Le Monde и другими.
“Мы основали компанию примерно в то время, когда OpenAI заключал сделки с новостными источниками… для целей обучения или получения информации, чтобы дополнить ответы моделей OpenAI и их продуктов. И мы подумали: ”Окей, это здорово, потому что у нас наконец-то есть компании, работающие в сфере ИИ, которые платят своим источникам», — рассказал TechCrunch соучредитель и генеральный директор Linkup Филипп Мизрахи, объяснив, что побудило основателей создать бизнес для объединения разработчиков ИИ с контент—провайдерами, надеюсь, для их взаимной выгоды.
В настоящее время издатели контента сталкиваются с трудным решением о том, что делать с потребностью GenAI в данных. Они могут заблокировать веб-скрейперы, используя (не имеющий обязательной юридической силы) robots.txt файл метаданных (который указывает, можно ли использовать веб-сайт для обучения модели искусственного интеллекта или нет). Более того, они могут подать в суд на ИИ-компании, которые, по их мнению, нарушили их авторские права. В качестве альтернативы, они могут позволить ботам свободно индексировать их контент (например, YOLO?). Или же они могут предоставлять лицензии на контент разработчикам ИИ, чтобы получить некоторую компенсацию за свою интеллектуальную собственность.
Но есть тысячи компаний, занимающихся ИИ (или технологических компаний, использующих ИИ), которые не обладают масштабами и охватом OpenAI. В то же время, что замечательно в Интернете, так это то, что существует длинный список издателей контента. Но это означает, что у небольшого издателя контента, как правило, не хватает финансовых ресурсов для подачи иска. Это также означает, что будет сложно перейти от модели сбора данных к модели лицензирования для миллионов веб-сайтов.
Вот почему Linkup — это не просто техническое решение. Это торговая площадка, посредник между издателями контента и компаниями, которые хотят дополнить свои ответы на вопросы LLM веб-контентом.
Linkup заключает соглашения о лицензировании контента с издателями и интегрируется с их CMS, чтобы получать контент от издателей без каких-либо проблем. Затем Linkup платит контент-партнерам в зависимости от того, как часто клиенты Linkup получают доступ к их контенту.
Команда основателей Linkup предоставила изображение:Linkup
“Мы действительно ориентируемся на приложения, которые внедряют ИИ в свои собственные продукты”, — сказал Мизрахи. “Итак, типичный пример использования заключается в том, что я создаю ИИ-приложение, используя модель от Mistral или OpenAI. Я создаю свой собственный конвейер, но мне нужно дополнить этот конвейер внешней информацией”.
В качестве дополнительного примечания, в то время как ChatGPT может просматривать веб-страницы, модели GPT — нет. OpenAI предоставляет как популярное приложение (ChatGPT), так и LLMS, которые разработчики могут использовать с помощью API (GPT). Но веб-поиск — это функция ChatGPT.
“Вот пример, который мне нравится, — это один из наших клиентов… создали внутреннее приложение для своих продавцов”, — также рассказал нам Мизрахи. “С одной стороны, они перечислили все преимущества своих продуктов. И благодаря нам они получают свежую и качественную информацию о своих перспективах и внедряют ее в Mistral LLM. А LLM компании Mistral разработает для торговых представителей своего рода рекламный план, который они будут иметь в виду, когда будут обзванивать потенциальных клиентов”.
Сначала Linkup решила сосредоточиться на корпоративной и деловой информации. Помимо новостных сайтов, стартап работает с базами данных знаний — например, Statista, Xerfi или другими ресурсами в том же духе.
Это не единственный стартап, который работает над предоставлением премиального контента LLM с лицензионными контрактами за кулисами. Наиболее заметным конкурентом является ScalePost, стартап, который с большим трудом продвигает свои лицензионные соглашения с издателями.
Несколько месяцев назад Linkup привлекла стартовый раунд финансирования в размере 3 миллионов евро (3,2 миллиона долларов по текущему обменному курсу) от Axeleo Capital, Motier Ventures, Seedcamp и сотни бизнес-ангелов. Сейчас в стартапе работает около 10 человек, и он планирует нанять еще 10 сотрудников в течение следующего года.
Источник: techcrunch.com