Поиск ответа в документе на 26 тыс. слов через LLM Cloude / Mixtral / Command

Перефразирую классика - "Все умные LLM похожи друг на друга, каждая тупая LLM глупа по-своему." или "Все маленькие контексты схоже счастливы, каждый большой контекст несчастлив по-своему." 🙈
miteigi nemoto

Была взята история из телеграм чата по NLP. Преобразована в текстовый документ. Где-то в середине документа упоминается мероприятие. Задача для LLM - найти упоминается ли. Тестирование показало, что чем длиннее контекст, тем сложнее некоторым моделям решать задачу. Лучше найти оптимальную длину контекста, в которой модель будет хорошо работать, чем гнаться за размером.

Cloude Opus вроде хорошо справляется с длинным контекстом. Однако, в одной из задач суммаризации, которую здесь не привожу, он вместо RAG написал RGA, это меня огорчило серьезно. Вера в длинный контекст пока слабая.

В документе упоминается только одно конкретное мероприятие - встреча от Tinkoff Lab Research для студентов, интересующихся NLP, ML, DL и RL. На встрече выпускники Лаборатории будут рассказывать о своих проектах и о том, как присоединиться к их исследованиям. Мероприятия пройдут офлайн в нескольких городах России и ближнего зарубежья.

В данном документе не упоминаются какие-либо конкретные мероприятия. Обсуждение сосредоточено вокруг языковых моделей, методов их обучения, настройки и применения для различных задач обработки естественного языка. Никаких упоминаний о мероприятиях, событиях или конференциях в тексте не содержится.
Не помогли наводящие вопросы с дополнительными ключевыми словами которые были в тексте:
Какие оффлайн мероприятия указаны в документе? Какие ивенты указаны в документе? Какие встречи указаны в документе? Упоминается ли Tinkoff Lab Research?
Переведя вес текст через Гугл - Sonnet смог найти лишь Tinkoff Lab Research, но событие не смог.😶‍🌫
Я подал 11 тыс слов в контект. Тоже события не найдены, а Tinkoff Lab Research упоминается. 🥶
А вот в 800 словах нашлось сразу.🫡

В документе указаны следующие мероприятия: Мероприятия Tinkoff Lab Research, которые проходят офлайн в Москве, Санкт-Петербурге, Казани, Минске, Астане, Новосибирске и Екатеринбурге.

Также не смог ничего найти ни при каких формулировках. Даже на вопрос упоминания Tinkoff Lab Research. В английском варианте текста модель ответила, что упоминается Tinkoff, но про события не нашла.

К сожалению, RTX 8000 не поддерживает Flash Attention 2. Возможно с ним будет результат лучше.

Сначала протестил на отрезке в 600 слов.

Сначала промпт криво работал. Когда я вопрос поставил вниз текста, то модель смогла подтвердить, что упоминание есть.
Больше всего меня убило в этой возне - это разные формулировки ответа, то короткие, то подробные, то с кривыми рогами.
Звучит противоречиво теории, но я снес do_sample = True и поставил do_sample = False.

Ответ стал одинаковым всегда: "Да, упоминаются офлайн мероприятия в тексте. В частности, говорится о том, что мероприятия пройдут офлайн в нескольких городах, таких как Москва, Санкт-Петербург, Казань, Минск, Астана, Новосибирск и Екатеринбург."

Увеличиваем контекст до 1600 слов - 24 секунды:
Да, упоминаются офлайн мероприятия в тексте. Они пройдут в Москве, Санкт-Петербурге, Казани, Минске, Астане, Новосибирске и Екатеринбурге.
Увеличиваем контекст до 4000 слов - 48 секунд:
Да, упоминаются офлайн мероприятия в тексте.

Уточняем - Какие упоминается мероприятия в тексте?
В тексте упоминаются следующие мероприятия: 1. Тинковф Лаб Ресерч (Tinkoff Lab Research) 2. Встреча выпускников Лаборатории в Москве, Санкт-Петербурге, Казани, Минске, Астане, Новосибирске и Екатеринбурге. 3. Python.Langchain комьюнити (Python.Langchain community) 4. Betterdata комьюнити (Betterdata community)"
Эх...Вранье.💀

Увеличиваем контекст до 11000 слов - 145 секунд:
Да, упоминаются офлайн мероприятия в тексте.
Какие упоминается мероприятия в тексте?
В тексте упоминаются следующие мероприятия: 1. Tinkoff Lab Research 2. Разработки Теры (ID: channel1820561756) 3. Разработки Теры (ID: channel1820561756) 4. Разработки Теры (ID: channel1820561756) 5...
Модель ушла в пике - повторы.👺

Увеличиваем контекст до 26 тыс слов (текст перевод на английский) - 250 секунд. Ничего не меняя в промпте, который на русском, модель отвечает мне про вопрос, но не про текст )
The question is about extracting entities from a text. The user wants to find out which events or meetings are mentioned in the text.
В общем уже не стал промпт мучать, замучался тестить. Может дополню позже.

Если нашли неточность в описании - буду рад поправкам. Также вы можете подписаться на мой ТГ-канал, где я делюсь своими находками и опытом.

Поиск ответа в документе на 26 тыс. слов через LLM Cloude / Mixtral / Command

Абстракт

✅ Cloude Opus (самый умный из Клодов) ответил правильно -

🆘 Cloude Sonnet (средненький - комбинация скорости и навыков) ответил -

✅Cloude Haiku самый быстрый -

🆘 cohere.com Command R+ через онлайн сервис

✅mistralai/Mixtral-8x7B-Instruct-v0.1 локально на HF коде и двух RTX 8000 в 4-бит