Новый метод обучения ИИ позволяет решить проблему "потерянной середины", от которой страдают современные модели ИИ

Исследователи из Microsoft, Пекинского университета и Университета Сиань Цзяотун разработали новый подход, основанный на данных, под названием INformation-INtensive (IN2) training, который направлен на решение проблемы "потерянной середины" в больших языковых моделях (LLM).

Феномен "потерянной середины" в настоящее время является одной из основных проблем для LLM (больших языковых моделей). Сейчас LLM понимают информацию в начале и конце длинного контекста, но с трудом обрабатывают информацию в середине. Это делает LLM ненадежными при оценке больших объемов данных, несмотря на преимущество большого окна выходного контекста.

Исследователи считают, что причиной этой проблемы является непреднамеренная предвзятость изначальных данных для обучения ИИ. Предварительное обучение направлено на предсказание следующих частей диалога на основе близлежащих частей, в то время как тонкая настройка часто включает системные инструкции в начале контекста, которые сильно влияют на генерацию ответа. Это неосознанно вносит позиционное смещение, предполагая, что важная информация всегда находится в начале и конце контекста.

В обучении IN2 используются синтетические данные "вопрос-ответ", чтобы явно показать модели, что важная информация может располагаться в любой позиции контекста. Длинный контекст (4K-32K лексем) заполняется множеством коротких сегментов (128 лексем), а вопросы направлены на информацию, содержащуюся в этих случайно расположенных сегментах.

Исследователи использовали два типа учебных вопросов: те, которые требовали подробностей в одном сегменте, и те, которые требовали интеграции и умозаключения информации из нескольких сегментов.

Исследователи применили IN2 к Mistral-7B, в результате чего получился FILM-7B (FILl-in-the-Middle). Тесты на трех новых задачах извлечения информации, предназначенных для длинных контекстов. Тесты охватывают различные типы контекста (документ, код, структурированные данные) и схемы поиска (прямой, обратный, двунаправленный).

Результаты показывают, что IN2 значительно уменьшает проблему "потерянной середины", характерную для оригинальной модели Mistral. Кроме того, будучи гораздо меньшей по размеру моделью, FILM-7B достигает сопоставимой или даже более надежной производительности, чем собственные модели, такие как GPT-4 Turbo с 128 Кбайт.

Модель Mistral, настроенная на IN2, демонстрирует значительно лучшие контекстные характеристики, чем исходная модель Mistral. В некоторых случаях он даже превосходит гораздо более крупный GPT-4 Turbo

FILM-7B также демонстрирует значительное улучшение в реальных задачах с длинными контекстами, таких как резюмирование длинных текстов, ответы на вопросы о длинных документах и рассуждения о нескольких документах, сохраняя при этом способность выполнять задачи с короткими контекстами.

Однако проблема "потерянной середины" еще не решена, поскольку GPT-4 Turbo остается самой сильной моделью в контекстных тестах, несмотря на проблемы с длинными контекстами.

Производительность различных моделей при выполнении реалистичных задач с длинным контекстом. Эффективность обучения INformation-INtensiv (IN2) в основном очевидна по сравнению с оригинальным Мистралем 7Б.

Исследователи также отмечают, что широко используемый тест "Иголка в стоге сена" неверно отражает возможности моделей в длинном контексте из-за использования знакомого контекста, похожего на документ, и упрощенного прямого поиска информации. Они предлагают свой подход VAL-зондирования как более подходящий метод для оценки контекстуальной производительности языковых моделей, поскольку он охватывает различные стили контекста и шаблоны поиска для более тщательной оценки.

1. Исследователи предлагают INformation-INtensive Training (IN2), метод обучения больших языковых моделей (LLM), основанный на данных, чтобы полностью использовать информацию в каждой позиции в длинном контексте, преодолевая проблему "потерянной середины".

2. В обучении IN2 используются сгенерированные пары вопрос-ответ, требующие информации из коротких сегментов в случайных позициях. Это тренирует модель воспринимать небольшие, детальные фрагменты информации, а также интегрировать и выводить информацию из разных позиций.

3. Модель FILM-7B, оптимизированная с помощью IN2-тренинга, демонстрирует более высокую производительность по всему длинному контексту по сравнению с оригинальной моделью в трех новых тестах на извлечение информации (VAL probing) с различными стилями контекста и шаблонами извлечения.

ps. Комментируйте и лайкайте, пожалуйста! Это помогает продвижению статьи.

Ну и как положено, канал тг))) Канал и чатик

Там в закрепленном боты KolerskyAi для генерации видео в Stable Video, а так же для доступа в Chat GPT+4 и Dalle-3, Midjourney без VPN и другие нейросети.

Новый метод обучения ИИ позволяет решить проблему "потерянной середины", от которой страдают современные модели ИИ

Резюме