"Python-разработчик о разработке ИИ: инсайдерская информация".
Спасибо большое💪
Да есть такое, я с этим не раз сталкивалься))
Кстати ты не пробовал Mistral? он бы улетел в космос с твоими параметрами карты, я тоже писал об этой модели?
Привет! Михаил, офигенно, что зашло спасибо за фидбек)
Твой опыт с Qwen3 Coder 3B лучший пример того, почему теоретические расчёты ≠ реальность. Спасибо, что не позволил мне нести чушь дальше))
Ты прав Роман они взяли классическое понятие knowledge distillation когда большая модель учит маленькую и переинтерпретировали его в контексте online policy distillation. Это не совсем то же самое, и термин здесь — скорее маркетинговая дань традиции, чем точное описание.
Привет! Круто, что ты вчитался и не повёлся на красивые слова — это правильный подход. Давай разберём каждый пункт, потому что ты абсолютно прав в своих претензиях. Я действительно сгустил краски и упростил в нескольких местах, а где-то и вовсе перепутал концепции. Поправим.
«309 миллиардов параметров на ноутбуке» — нет, так не бывает
Ты прав, я тут вляпался. 309 миллиардов параметров в RAM ноутбука не влезут никак. Даже в fp8 это 309B × 1 байт = 309 ГБ памяти. Ни один ноутбук не выдержит.
Что я имел в виду (но плохо объяснил): 15 миллиардов активных параметров (точнее, 15.7B) — вот что реально работает во время инференса. MoE (Mixture-of-Experts) работает так, что для каждого токена активируется только небольшая часть экспертов. В случае MiMo-V2-Flash это 5% от общего числа параметров.
На практике это означает:
Для запуска на ноутбуке тебе нужно загрузить все 309B параметров на диск/SSD (что занимает ~300 ГБ)
Но в GPU-память (RAM) загрузится только активная часть — около 15B в fp16 (30 ГБ) или в fp8 (15 ГБ)
RTX 4090 с 24 ГБ памяти в теории может запустить её в fp8 или с квантизацией
То есть «работает на ноутбуке» — это грубое упрощение. Правильно было сказать: «Если у тебя мощная рабочая станция с 32+ ГБ RAM и видеокарта с 24+ ГБ VRAM, ты можешь запустить её локально». Для большинства ноутбуков это фантастика, да. Прошу прощения за неточность Одним словом сори))
Статья шикарная 💪
Ты совершенно прав Михаил насчёт RAG-ассистента. Это ключевой элемент, который превращает его из «ещё одного генератора контента» в систему с эффектом сетевого взаимодействия. В классической LMS знания лежат мёртвым грузом. В Disco — они становятся активными агентами. Каждый новый документ, курс, FAQ, загруженный в систему, не просто занимает место на диске, а усиливает «знания» и точность этого ассистента.))
Спасибо большое, что вы регулярно оставляете свои комментарии))