На днях исследователи из Принстона представили Lory — первое в своём роде решение, которое позволяет масштабировать MoE-архитектуры для предварительного обучения авторегрессионных языковых моделей.В Lory реализованы 2 ключевые технологии: (1) — стратегия маршрутизации причинных сегментов, которая обеспечивает высокую эффективность операций объединения экспертов при сохранении авторегрессивной природы языковых моделей(2) — метод группировки данных на основе сходства, который стимулирует специализацию "экспертов" путем группировки похожих документов в обучающих выборкахРезультаты экспериментов с Lory показывают значительный прирост производительности по сравнению с обычными MoE-моделями. 📎 ArxivЕсли интересуетесь темой ИИ и нейросетей, здесь я публикую разбор свежих моделей, статей и гайдов, кладешь полезной информации.#машинноеобучение #llm #chatgpt