Согласно новому исследованию, это в первую очередь связано с данными обучения. С помощью контролируемых экспериментов исследователи обнаружили, что эффективная длина выходных данных модели ограничена самым длинным выходным значением, которое она видела во время контролируемой тонкой настройки (SFT).
Интересно, надо будет поиграться
Увеличение длины генерации текста до 10 000 слов и более — значительное достижение