Google выпустил Gemma 4 - и она работает на моём ноутбуке. Тестирую модель за 26 миллиардов параметров, которая обгоняет конкурентов в 20 раз крупнее

Вчера, 2 апреля, Google DeepMind выпустил Gemma 4 - новое поколение открытых моделей. Модель 26B A4B заняла 6-е место в мировом рейтинге Arena AI среди всех открытых моделей. При этом она запускается на обычном ноутбуке. Я скачал её через LM Studio и прогнал три теста: пространственное мышление, технические знания и генерация текста с юмором. Рассказываю, что умеет модель с 26 миллиардами параметров, из которых работают только 4.

Gemma 4 - семейство открытых моделей от Google DeepMind, построенных на исследовательской базе линейки Gemini. Четыре размера: E2B (2B эффективных), E4B (4B эффективных), 26B A4B (MoE) и 31B (Dense). Лицензия Apache 2.0 - бесплатно для коммерческого использования.

Меня заинтересовала именно 26B A4B. Буква «A» в названии - это active parameters. Модель использует архитектуру Mixture of Experts: из 26 миллиардов параметров при каждом запросе активируются только 4 миллиарда. Это значит, что она работает почти так же быстро, как 4B-модель, но по качеству ответов приближается к 26B. По бенчмаркам Google, она обгоняет модели в 20 раз крупнее.

Что умеет: обработка текста и изображений (мультимодальность), встроенный режим «размышления» (thinking mode - модель сначала рассуждает, потом отвечает), контекстное окно 256K токенов, поддержка 140+ языков, function calling для агентных сценариев. Маленькие модели E2B и E4B дополнительно поддерживают видео и аудио на вход.

Запускается локально: 18 ГБ видеопамяти в 4-bit квантизации, 28 ГБ в 8-bit. На Mac с unified memory (где RAM = VRAM) работает на любой конфигурации от 32 ГБ. На Windows нужна видеокарта с 24 ГБ VRAM (RTX 4090, RTX 3090) для комфортной работы в 8-bit. У меня MacBook Pro 16" M1 Pro с 32 ГБ - модель встала без проблем.

Самый простой способ - LM Studio. Скачиваете приложение с lmstudio.ai, в поиске моделей набираете «gemma-4-26b-a4b», скачиваете квантизацию под ваш объём памяти (Q4 для 18 ГБ, Q8 для 28 ГБ) и запускаете. Всё. Никаких терминалов, Docker, Python.

Для тех, кто предпочитает терминал: модель доступна через Ollama, llama.cpp и vLLM с первого дня. На Hugging Face есть веса в нескольких форматах.

Классический тест на логику, на котором спотыкаются многие модели.

Вопрос: «У меня есть кружка. У нее наглухо сваркой заварен верх и спилено дно. Как из нее пить?»

Ответ Gemma 4: «Тебе нужно просто её перевернуть. Раз верх заварен наглухо, он теперь служит новым "дном". А так как дно спилено, там теперь образовалось отверстие - твой новый "верх". После переворота у тебя получится не совсем кружка, а скорее стакан с очень прочным дном.»

Думала 12.96 секунд, скорость 33 токена/сек. Ответ правильный, логичный, с объяснением. Важный нюанс: я намеренно не написал слово «загадка» в промте. По моему опыту, только достаточно сильные модели понимают, что это задача на пространственное мышление, а не буквальный вопрос. Модели послабее воспринимают промт буквально и предлагают просверлить дырку или использовать трубочку.

Вопрос на понимание предметной области LLM - проверяю, насколько модель разбирается в собственной архитектуре.

Вопрос: «Что значит постфикс instruct в названиях LLM?»

Ответ Gemma 4: Структурированное объяснение из двух частей. Сначала - что такое Base Model (предсказывает следующее слово, не умеет отвечать на вопросы). Потом - что такое Instruct Model (прошла fine-tuning на парах «Инструкция → Правильный ответ», понимает команды «Переведи...», «Напиши код...», «Саммаризируй...»).

Думала 17.62 секунд. Ответ точный, хорошо структурированный, с примерами.

Самый сложный тест для локальных моделей. Юмор на русском языке требует понимания контекста, профессионального сленга и тонкой иронии.

Вопрос: «Напиши юмористический пост для моего телеграм канала "Веб-разработка и маркетинг | АП-ИМ"»

Ответ Gemma 4: Три варианта. Лучший - диалог «Маркетолог vs Разработчик»:

Маркетолог: «Слушай, я тут нашел крутой инструмент для ретаргетинга! Нужно всего лишь добавить один маленький JS-код на все страницы... и ещё один пиксель... и вот этот виджет чата...»

Разработчик: «А как же наш LCP? А как же Core Web Vitals? Ты хоть представляешь, что будет с PageSpeed Insights, когда мы добавим это "маленькое чудо"?»

Маркетолог: «Ну, зато лиды будут лететь!»

Разработчик: «Лиды будут лететь только в сторону кнопки "Закрыть вкладку", потому что сайт будет грузиться дольше, чем я пишу этот коммит.»

Думала 17.41 секунд. Юмор на месте, профессиональный сленг правильный (LCP, Core Web Vitals, PageSpeed - всё в тему), диалог живой. Для локальной модели - это сильный результат.

Gemma 4 26B A4B работает в нише между маленькими локальными моделями (Llama 3.2 3B, Phi-4 Mini) и большими, которые требуют серверного GPU. На текстовом лидерборде Arena AI модель занимает 6-е место среди всех открытых моделей мира с рейтингом LMArena 1441 - при том, что активны только 4B параметров. Для сравнения: Dense-версия 31B набирает 1452 и занимает 3-е место, но требует больше ресурсов и работает медленнее.

По бенчмаркам Google для 31B Dense: AIME 2026 (математика) 89.2%, GPQA Diamond (наука) 84.3%, LiveCodeBench v6 (код) 80.0%. 26B A4B показывает результаты ниже (это ожидаемо при 4B активных параметров), но разница с Dense-версией непропорционально маленькая - а скорость инференса в разы выше.

Для модели, которая запускается на ноутбуке и генерирует 33 токена/сек, это впечатляющие цифры. Для сравнения: облачные API (Claude, GPT-4o) отвечают со скоростью 50-80 токенов/сек, но требуют подписки и передачи данных на внешний сервер. 33 токена/сек локально - это комфортная скорость чтения, ответ на экране появляется быстрее, чем успеваешь читать. По моим субъективным ощущениям от трёх тестов, качество ответов на русском языке заметно выше, чем у предыдущего поколения Gemma 3.

Локальная модель не заменяет Claude или GPT-4o для сложных задач. Но у неё есть то, чего нет у облачных сервисов: данные не уходят на чужие серверы. Это критично для бизнеса, который работает с персональными данными, коммерческой тайной или чувствительной информацией.

Конкретные сценарии: анализ внутренних документов без передачи в облако, AI-ассистент для команды на локальном сервере, обработка клиентских обращений с конфиденциальными данными, прототипирование AI-функций перед покупкой облачного API.

Простая экономика: команда из 5 человек тратит на облачные API около 50 000 ₽/мес. Сервер с RTX 4090 (~200 000 ₽) + Gemma 4 (бесплатная лицензия Apache 2.0) окупается за 4 месяца. После этого расходы на инференс - только электричество.

Google продолжает делать ставку на открытые модели, и Gemma 4 - это серьёзный шаг вперёд. Локальные модели были и раньше, но MoE-архитектура с 4B активных параметров при качестве 26B - это новый уровень эффективности. Модель, которая думает 13 секунд и правильно решает задачу на пространственное мышление, генерирует профессиональный юмор на русском языке и при этом работает на ноутбуке без интернета - ещё полтора года назад для этого требовалась модель в 5-10 раз крупнее и серверный GPU.

Google выпустил Gemma 4 - и она работает на моём ноутбуке. Тестирую модель за 26 миллиардов параметров, которая обгоняет конкурентов в 20 раз крупнее

Что такое Gemma 4 и почему это важно

Как запустить у себя

Тест 1: пространственное мышление

Тест 2: технические знания

Тест 3: генерация текста с юмором

Сравнение с конкурентами

Для чего подходит бизнесу