LongCat-Flash-Chat: как Meituan превратила доставку еды в прорыв в мире LLM
Казалось бы, какая связь между курьерами и моделями на сотни миллиардов параметров? Но Meituan взяла инфраструктуру и инженерные рефлексы доставки - и выжала из них LLM, которая на равных спорит с топами. Честно говоря, это редкий случай, когда «сервис про еду» приносит в ИИ не шум, а реальную силу.
560B параметров без «топора»: динамическая MoE в деле
Главная мысль: модель большая, но платит не весь зал. LongCat-Flash-Chat - это 560B параметров, однако на каждый токен активируется лишь 18.6-31.3B (в среднем около 27B). Экономия вычислений достигается за счет динамической маршрутизации экспертов и «ноль-вычислений» для менее значимых токенов. Вишенка - PID-контроллер выравнивает нагрузку, чтобы модель не «косила» в сторону отдельных экспертов. Звучит как академический трюк, но на практике это меньше счетов за GPU и выше пропускная способность.
Ключ к эффективности - архитектура Shortcut-connected MoE: вычисления и коммуникации перекрываются, а не стоят в очереди. Для бизнеса это значит предсказуемые задержки в проде и адекватные требования к кластерам, а не «требуем тысячу GPU прямо сейчас». MoE здесь - не модный ярлык, а рабочая логистика вычислений.
«Мы расширили окно перекрытия вычислений и обмена, добившись устойчивой скорости и масштабирования»
Скорость и контекст: 100+ токенов в секунду и до 128k
Главная мысль: throughput важнее чистой силы. Команда Meituan заявляет более 100 токенов в секунду на инференсе - для онлайновых витрин, ассистентов и агентных сценариев это не роскошь, а условие выживания. Параллельно модель прокачана на длинный контекст - до 128k токенов, так что можно держать переписки, документы и план выполнения задач без бессмысленного обрезания истории. В переводе на продуктовый язык - меньше костылей вокруг памяти и ретриверов, больше устойчивости к реальным кейсам.
Чтобы не быть голословными, Meituan показывает таблицы с метриками по reasoning, коду и агентным задачам - там LongCat-Flash-Chat бодро смотрит в сторону лидеров. Это не магия MoE, а аккуратная тренировка: многоступенчатый пайплайн, расширение контекста на середине обучения и постобучение под агентные сценарии. Проще говоря, модель не только говорит, но и умеет работать инструментами.
MIT и открытые веса: почему это важно не только стартапам
Главная мысль: открыто - значит адаптируемо. Meituan выкатила не только код, но и веса под MIT - максимально гибкую лицензию без «мин по коммерции». Это снижает барьер для компаний, которые хотят поднять модель on-prem, подружить ее с собственными данными и процедурами безопасности, от дистилляции до тонкой настройки под предметку. Плюс банальное, но ценное: вы не заперты в чьей-то экосистеме и ценовой политике.
Практика показывает, что «открытость» рождает экосистему: появляется поддержка в SGLang и vLLM, готовые шаблоны чата, примеры tool calling и бенчмарки под агентные задачи. Если вы собираете внутреннего ассистента для службы поддержки или оркеструете цепочки «поиск - разметка - извлечение - ответ», LongCat-Flash-Chat годится как база без мучений с лицензированием. Открытая платформа ускоряет не только R&D, но и выход в прод.
Как встроить ИИ в процесс, рабочие промпты и кейсы - подписывайтесь на мой ТГ-канал