Языковые модели. Что тебе в имени MoE-м.

В предыдущей статье (ссылка) я писал о локальном запуске языковых моделей и был приятно впечатлен на собственном опыте.

К сожалению, у локального запуска языковых моделей есть несколько неприятных моментов:

1) Требования к объему оперативной памяти, как к обычной, так и графической. Поясню, при работе, языковая модель выгружается в оперативную память и, например, для gpt-oss-20b (20 миллиардов параметров, достаточно «умная» модель) требуется порядка 12 гигов такой памяти. И данная проблема вполне решаема, ведь стоимость оперативной памяти не заоблачная и даже многие ноутбуки в стоке уже идут с 16 гигами памяти;

2) Скорость генерации токенов. Поясню, по факту, это та скорость, с которой будет генерироваться текст. И проблема здесь следующая, чем больше модель, тем больше оперативной памяти она потребляет и тем меньше скорость генерации текста. Если объем оперативной памяти мы можем наращивать в достаточно широком диапазоне, то скорость генерации токенов/текста упирается в скорость самой оперативной памяти.

Оба этих момента являются критически важными, при локальном запуске языковых моделей, ведь мы всегда ограничиваемся характеристиками существующего компьютера (в отличие от крупных корпораций, которые за несколько миллионов, а то и миллиардов, баблинского приобретают, по сути, суперкомпьютеры).

Умным дядькам (это точно не я) такая ситуация определенно не нравилась, и они пришли к элегантному решению, а именно, к MoE – Mixture of Experts, то есть «смесь экспертов». Если кратко, то MoE— это подход в машинном обучении, где большая языковая модель делится на несколько специализированных "экспертов" (подмоделей), каждый из которых хорошо справляется с определёнными типами задач или данных. Вместо того чтобы активировать всю модель целиком (что дорого по вычислительным ресурсам), используется "маршрутизатор" — специальный механизм, который для каждого входа (например, запроса) выбирает только 1–2 релевантных эксперта.

Смотрите, все достаточно просто, в этом (ссылка) новостном дуйджесте я писал про новые языковые модели от IBM. Нас сейчас интересует модель Granite 4.0 H Small (32B/9B). У этой модели 32 миллиарда параметров, что потребует порядка 16-18 гигов оперативной памяти, но при этом во время ответа активно только 9 миллиардов параметров, что сильно положительно скажется на скорости генерации текста. Например, gpt-oss-20b, при работе на CPU, выдает порядка 8-10 токенов в секунду, в случае же Granite 4.0 H Small (32B/9B) можно надеяться на удвоение скорости, а 20 токенов в секунду уже не воспринимается как скорость улитки.

Ну а так вроде все пацаны и пацанята, коты и котанята. Надеюсь, стало немножечко понятнее, что вообще в этом мире происходит. Ну и не забываем, я разработал чат-рулетку в виде мини-приложение в telegram, как говорится welcome t.me/Twittly_bot/twittly. Затестите, вам не сложно, мне приятно!!!))).

Ссылка на мой telegram канал t.me/socionyxchannel, you are welcome too, где я пишу про будни разработчика.