Современные LLM могут генерировать гораздо более длинные тексты, чем считалось ранее

Исследователи разработали метод, позволяющий расширить выходную длину языковых моделей ИИ до более чем 10 000 слов. До сих пор общепринятым был предел в 2 000 слов.

Современные языковые модели способны обрабатывать входные данные, состоящие из сотен тысяч или даже миллионов токенов, но без внешнего вмешательства они не генерируют выходные данные длиннее скромных 2000 слов.

Согласно новому исследованию, это в первую очередь связано с данными обучения. С помощью контролируемых экспериментов исследователи обнаружили, что эффективная длина выходных данных модели ограничена самым длинным выходным значением, которое она видела во время контролируемой тонкой настройки (SFT).

Другими словами, ограничение вывода обусловлено нехваткой примеров с длинными выводами в существующих наборах данных SFT. Чтобы решить эту проблему, ученые вводят «AgentWrite» — конвейер на основе агентов, который разбивает длинные задачи генерации на подзадачи. Это позволяет существующим LLM генерировать связные выводы объемом более 20 000 слов.

Используя AgentWrite, исследователи создали набор данных «LongWriter-6k». Он содержит 6000 данных SFT с длиной выходных данных от 2000 до 32000 слов. Обучаясь с этим набором данных, они смогли масштабировать длину выходных данных существующих моделей до более чем 10000 слов без ущерба для качества выходных данных.

Для оценки возможностей сверхдлинной генерации они также разработали «LongBench-Write» — комплексный тест с различными инструкциями по написанию и длиной выходных данных от 0 до более 4000 слов.

Исследователи добились 9 миллиардов параметров модели, дополнительно улучшенной Direct Preference Optimization (DPO), и достигли наивысшей производительности в этом тесте. Она даже превзошла гораздо более крупные фирменные модели.

Код и модель LongWriter доступны на GitHub .

Исследователи разработали метод под названием «AgentWrite», который позволяет расширить длину выходных языковых моделей ИИ с обычных 2000 слов до более чем 10 000 слов.
Согласно исследованию, ограничение длины выходных данных обусловлено данными обучения. Эффективная длина выходных данных модели ограничена самым длинным выходным значением, которое она видела во время контролируемой тонкой настройки.
Используя AgentWrite, исследователи создали набор данных "LongWriter-6k" с 6000 обучающих данных и выходными длинами до 32 000 слов. Модель с 9 миллиардами параметров, обученная с его помощью, достигла наивысшей производительности на недавно разработанном бенчмарке LongBench-Write.

ps. Комментируйте, пожалуйста! Это помогает продвижению статьи.

Ну и как положено, канал тг))) Канал и чатик

Там под сообщениями и в закрепленном боты KolerskyAi для генерации видео, а так же для доступа в Chat GPT+4 и Dalle-3 без VPN и другие нейросети. Все нейросети

Современные LLM могут генерировать гораздо более длинные тексты, чем считалось ранее

LongWriter регулярно генерирует 40 страниц текста

Краткое содержание