Перефразирую классика - "Все умные LLM похожи друг на друга, каждая тупая LLM глупа по-своему." или "Все маленькие контексты схоже счастливы, каждый большой контекст несчастлив по-своему." 🙈miteigi nemotoАбстрактБыла взята история из телеграм чата по NLP. Преобразована в текстовый документ. Где-то в середине документа упоминается мероприятие. Задача для LLM - найти упоминается ли. Тестирование показало, что чем длиннее контекст, тем сложнее некоторым моделям решать задачу. Лучше найти оптимальную длину контекста, в которой модель будет хорошо работать, чем гнаться за размером. Cloude Opus вроде хорошо справляется с длинным контекстом. Однако, в одной из задач суммаризации, которую здесь не привожу, он вместо RAG написал RGA, это меня огорчило серьезно. Вера в длинный контекст пока слабая.✅ Cloude Opus (самый умный из Клодов) ответил правильно -В документе упоминается только одно конкретное мероприятие - встреча от Tinkoff Lab Research для студентов, интересующихся NLP, ML, DL и RL. На встрече выпускники Лаборатории будут рассказывать о своих проектах и о том, как присоединиться к их исследованиям. Мероприятия пройдут офлайн в нескольких городах России и ближнего зарубежья.🆘 Cloude Sonnet (средненький - комбинация скорости и навыков) ответил -В данном документе не упоминаются какие-либо конкретные мероприятия. Обсуждение сосредоточено вокруг языковых моделей, методов их обучения, настройки и применения для различных задач обработки естественного языка. Никаких упоминаний о мероприятиях, событиях или конференциях в тексте не содержится.Не помогли наводящие вопросы с дополнительными ключевыми словами которые были в тексте: Какие оффлайн мероприятия указаны в документе? Какие ивенты указаны в документе? Какие встречи указаны в документе? Упоминается ли Tinkoff Lab Research?Переведя вес текст через Гугл - Sonnet смог найти лишь Tinkoff Lab Research, но событие не смог.😶🌫Я подал 11 тыс слов в контект. Тоже события не найдены, а Tinkoff Lab Research упоминается. 🥶А вот в 800 словах нашлось сразу.🫡✅Cloude Haiku самый быстрый -В документе указаны следующие мероприятия: Мероприятия Tinkoff Lab Research, которые проходят офлайн в Москве, Санкт-Петербурге, Казани, Минске, Астане, Новосибирске и Екатеринбурге.🆘 cohere.com Command R+ через онлайн сервисТакже не смог ничего найти ни при каких формулировках. Даже на вопрос упоминания Tinkoff Lab Research. В английском варианте текста модель ответила, что упоминается Tinkoff, но про события не нашла. ✅mistralai/Mixtral-8x7B-Instruct-v0.1 локально на HF коде и двух RTX 8000 в 4-битК сожалению, RTX 8000 не поддерживает Flash Attention 2. Возможно с ним будет результат лучше.Сначала протестил на отрезке в 600 слов.Сначала промпт криво работал. Когда я вопрос поставил вниз текста, то модель смогла подтвердить, что упоминание есть. Больше всего меня убило в этой возне - это разные формулировки ответа, то короткие, то подробные, то с кривыми рогами. Звучит противоречиво теории, но я снес do_sample = True и поставил do_sample = False.Ответ стал одинаковым всегда: "Да, упоминаются офлайн мероприятия в тексте. В частности, говорится о том, что мероприятия пройдут офлайн в нескольких городах, таких как Москва, Санкт-Петербург, Казань, Минск, Астана, Новосибирск и Екатеринбург."Увеличиваем контекст до 1600 слов - 24 секунды: Да, упоминаются офлайн мероприятия в тексте. Они пройдут в Москве, Санкт-Петербурге, Казани, Минске, Астане, Новосибирске и Екатеринбурге.Увеличиваем контекст до 4000 слов - 48 секунд:Да, упоминаются офлайн мероприятия в тексте.Уточняем - Какие упоминается мероприятия в тексте?В тексте упоминаются следующие мероприятия: 1. Тинковф Лаб Ресерч (Tinkoff Lab Research) 2. Встреча выпускников Лаборатории в Москве, Санкт-Петербурге, Казани, Минске, Астане, Новосибирске и Екатеринбурге. 3. Python.Langchain комьюнити (Python.Langchain community) 4. Betterdata комьюнити (Betterdata community)"Эх...Вранье.💀Увеличиваем контекст до 11000 слов - 145 секунд:Да, упоминаются офлайн мероприятия в тексте.Какие упоминается мероприятия в тексте?В тексте упоминаются следующие мероприятия: 1. Tinkoff Lab Research 2. Разработки Теры (ID: channel1820561756) 3. Разработки Теры (ID: channel1820561756) 4. Разработки Теры (ID: channel1820561756) 5...Модель ушла в пике - повторы.👺Увеличиваем контекст до 26 тыс слов (текст перевод на английский) - 250 секунд. Ничего не меняя в промпте, который на русском, модель отвечает мне про вопрос, но не про текст )The question is about extracting entities from a text. The user wants to find out which events or meetings are mentioned in the text.В общем уже не стал промпт мучать, замучался тестить. Может дополню позже.Если нашли неточность в описании - буду рад поправкам. Также вы можете подписаться на мой ТГ-канал, где я делюсь своими находками и опытом.