Большие языковые модели (LLM) с очень длинными контекстными окнами в последнее время стали заголовками новостей. Возможность втиснуть сотни тысяч или даже миллионы токенов в одну подсказку открывает множество возможностей для разработчиков.
Но насколько хорошо эти LLM с длинным контекстом действительно понимают и используют огромные объемы информации, которую они получают?
Исследователи из Google DeepMind представили Michelangelo, новый бенчмарк, разработанный для оценки возможностей рассуждений LLM с длинным контекстом. Их выводы, опубликованные в новой исследовательской статье, показывают, что хотя текущие передовые модели продвинулись в извлечении информации из больших данных в контексте, они все еще испытывают трудности с задачами, требующими рассуждений о структуре данных.
Необходимость в лучших бенчмарках с длинным контекстом
Появление LLM с чрезвычайно длинными контекстными окнами, варьирующимися от 128 000 до более 1 миллиона токенов, побудило исследователей разработать новые бенчмарки для оценки их возможностей. Однако основное внимание уделялось задачам поиска, таким как популярная оценка «иголка в стоге сена», где модели поручено найти определенную часть информации в большом контексте.</стр> <стр>«Со временем модели стали значительно более способными в производительности длинных контекстов», — рассказал VentureBeat Киран Водрахалли, научный сотрудник Google DeepMind. «Например, популярная оценка поиска «иголка в стоге сена» теперь хорошо насыщена до чрезвычайно большой длины контекста. Таким образом, стало важным определить, разрешимы ли более сложные задачи, которые модели способны решать в краткосрочных контекстных режимах, также и на больших расстояниях.”
Задачи поиска не обязательно отражают способность модели рассуждать во всем контексте. Модель может найти определенный факт, не понимая взаимосвязей между различными частями текста. Между тем, существующие бенчмарки, оценивающие способность модели рассуждать в длинных контекстах, имеют ограничения.
«Легко разработать оценки длинных рассуждений, которые решаемы с помощью комбинации только использования поиска и информации, хранящейся в весах модели, таким образом «замыкая» тест способности модели использовать длинный контекст», — сказал Водрахалли.
Michelangelo
Чтобы устранить ограничения текущих бенчмарков, исследователи представили Michelangelo, «минимальную, синтетическую и нераскрытую оценку длинных контекстных рассуждений для больших языковых моделей».
Микеланджело основан на аналогии скульптора, откалывающего ненужные куски мрамора, чтобы выявить лежащую в основе структуру. Тест фокусируется на оценке способности модели понимать взаимосвязи и структуру информации в ее контекстном окне, а не просто на извлечении изолированных фактов.
Тест состоит из трех основных задач:
Скрытый список: Модель должна обрабатывать длинную последовательность операций, выполняемых над списком Python, отфильтровывать ненужные или избыточные операторы и определять конечное состояние списка. «Скрытый список измеряет способность модели отслеживать свойства скрытой структуры данных в ходе потока инструкций кода», — пишут исследователи.
Многораундовое разрешение ко-референсов (MRCR):Модель должна воспроизводить части длинного разговора между пользователем и LLM. Для этого требуется, чтобы модель понимала структуру разговора и разрешала ссылки на предыдущие реплики, даже если разговор содержит запутанные или отвлекающие элементы. «MRCR измеряет способность модели понимать порядок в естественном тексте, различать похожие черновики письма и воспроизводить указанный фрагмент предыдущего контекста в соответствии с крайне сложными запросами», — пишут исследователи.
«Я не знаю» (IDK):Модели дается длинная история и предлагается ответить на вопросы с несколькими вариантами ответов о ней. Для некоторых вопросов контекст не содержит ответа, и модель должна уметь распознавать пределы своих знаний и отвечать «Я не знаю». «IDK измеряет способность модели понимать, знает ли она то, чего не знает, на основе представленного контекста», — пишут исследователи.
Запросы на скрытую структуру
Задания в Michelangelo основаны на новой структуре, называемой запросами на скрытую структуру (LSQ). LSQ обеспечивает общий подход к разработке оценок рассуждений с длинным контекстом, которые можно расширить до произвольной длины. Он также может проверить понимание моделью неявной информации в отличие от извлечения простых фактов. LSQ опирается на синтез тестовых данных, чтобы избежать ловушек утечки тестовых данных в обучающий корпус.
«Требуя от модели извлечения информации из структур, а не значений из ключей (скульптуры из мрамора, а не иголки из стога сена), мы можем более глубоко протестировать понимание контекста языковой модели за пределами поиска», — пишут исследователи.
LSQ имеет три ключевых отличия от других подходов к оценке LLM с длинным контекстом. Во-первых, он был специально разработан для того, чтобы избежать ошибок короткого замыкания в оценках, которые выходят за рамки задач поиска. Во-вторых, он определяет методологию для независимого увеличения сложности задачи и длины контекста. И, наконец, он достаточно общий, чтобы охватить широкий спектр задач рассуждения. Три теста, используемые в Michelangelo, охватывают интерпретацию кода и рассуждения по вольно написанному тексту.
«Цель состоит в том, чтобы оценки, выходящие за рамки рассуждений и реализуемые с помощью LSQ, привели к меньшему количеству сценариев, в которых предлагаемая оценка сводится к решению задачи поиска», — сказал Водрахалли.
Оценка моделей frontier на Michelangelo
Исследователи оценили десять frontier LLM на Michelangelo, включая различные варианты Gemini, GPT-4 и 4o, а также Claude. Они протестировали модели в контекстах до 1 миллиона токенов. Модели Gemini показали наилучшие результаты на MRCR, модели GPT преуспели на Latent List, а Claude 3.5 Sonnet показал самые высокие результаты на IDK.
Однако все модели продемонстрировали значительное падение производительности по мере увеличения сложности задач на рассуждение, что говорит о том, что даже при очень длинных контекстных окнах нынешние LLM все еще могут улучшить свою способность рассуждать на основе больших объемов информации.
Frontier LLM испытывают трудности с рассуждениями в окнах с длинным контекстом (источник: arxiv)
«Frontier-модели имеют возможности для улучшения всех примитивов рассуждений, выходящих за рамки поиска (скрытый список, MRCR, IDK), которые мы исследуем в Michelangelo», Водрахалли сказал. «Разные модели фронтира имеют разные сильные и слабые стороны — каждый класс хорошо работает в разных диапазонах контекста и для разных задач. Что, по-видимому, универсально для всех моделей, так это первоначальное падение производительности в задачах с длинными рассуждениями».
Оценки Michelangelo охватывают базовые примитивы, необходимые для рассуждений в длинных контекстах, и результаты могут иметь важные последствия для корпоративных приложений. Например, в реальных приложениях, где модель не может полагаться на свои предварительные знания и должна выполнять многоскачковые рассуждения во многих разрозненных местах в очень длинных контекстах, Водрахалли ожидает, что производительность будет падать по мере роста длины контекста.
«Это особенно верно, если документы содержат много информации, которая не имеет отношения к поставленной задаче, что затрудняет для модели возможность легко и сразу отличить, какая информация имеет отношение к делу, а какая нет», — сказал Водрахалли. «Также вероятно, что модели продолжат хорошо работать в задачах, где вся необходимая информация для ответа на вопрос находится в одном общем месте в документе».
Исследователи продолжат добавлять больше оценок в Michelangelo и надеются сделать их напрямую доступными, чтобы другие исследователи могли тестировать на них свои модели.