Продолжение предыдущего поста про бесплатную альтернативу платным диктовкам. Теперь с упрощенной установкой для пользователей MacBook Air M1 8GB

---

Вчера я рассказал про VTTv2 — бесплатную альтернативу платным диктовкам на базе whisper.cpp

Что изменилось

Если ранее проект использовал whisper.cpp (требовал компиляцию C++ и ручное скачивание моделей), то теперь используется MLX Whisper — нативный фреймворк Apple для машинного обучения.

Что это значит для вас:

- ✅ Не нужно компилировать C++ — просто

pip install

- ✅ Модель скачивается автоматически при первом использовании

- ✅ Оптимизировано специально для Apple Silicon — эффективнее использует память

- ✅ Работает стабильнее на M1 8GB — меньше проблем с инициализацией

Проблема whisper.cpp для M1 8GB

В прошлой версии использовался whisper.cpp:

- Требовал компиляцию C++ (см. инструкцию вчерашнего поста) — 10-15 минут

- Нужно было вручную скачивать модели — ~1GB для Large v3

- Модель Large v3 могла быть тяжелой для 8GB RAM — риск нехватки памяти

- Проблемы с инициализацией на некоторых конфигурациях — "failed to initialize whisper context"

Если у вас MacBook Air M1 с 8GB памяти, это была реальная проблема. Большая модель могла не влезть, а компиляция C++ отпугивала многих.

Решение: MLX Whisper

MLX (Machine Learning eXchange) — фреймворк Apple специально для Apple Silicon:

- Использует Unified Memory Architecture — эффективнее работает с памятью

- Оптимизирован для Neural Engine и GPU на Apple Silicon

- Автоматически управляет памятью — не нужно настраивать вручную

- Работает быстрее чем универсальные решения типа whisper.cpp

Практический результат для M1 8GB

Раньше (whisper.cpp):

- Компиляция C++ — 10-15 минут

- Скачивание модели Large v3 — ~1GB

- Риск нехватки памяти на 8GB - Проблемы с инициализацией

Теперь (MLX Whisper):

- Установка:

pip install mlx mlx-whisper

— 2 минуты

- Модель Medium скачивается автоматически — ~977MB (оптимально для 8GB)

- Эффективное использование памяти — работает стабильно

- Никаких проблем с инициализацией

Что получилось: VTTv2 v2.0

Полностью бесплатно — никаких подписок, никаких ограничений

100% локально — все данные остаются на вашем Mac

Работает офлайн — интернет не нужен после установки

Модель Medium — оптимальный баланс точности и скорости для M1 8GB

Автовставка текста — как в платных решениях

Проще установка — не нужно компилировать C++

Оптимизация для Apple Silicon — эффективнее использует память

Установка за 3 минуты (для M1 8GB)

Шаг 1: Клонируем репозиторий

Шаг 2: Устанавливаем зависимости

Создаем виртуальное окружение

python3.12 -m venv venv

Активируем

source venv/bin/activate

Обновляем pip

pip install --upgrade pip==25.3

Устанавливаем зависимости (MLX Whisper включен)

pip install -r requirements.txt

Важно: MLX Whisper автоматически скачает модель

mlx-community/whisper-medium

при первом использовании (требуется интернет только один раз). Это оптимальный выбор для M1 с 8GB RAM.

Шаг 3: Настраиваем разрешения macOS

ВАЖНО: Перед запуском:

- Системные настройки > Конфиденциальность > Микрофон — добавьте Terminal - Системные настройки > Конфиденциальность > Управление компьютером — добавьте Terminal

Шаг 4: Запускаем

python src/main.py

Всё. Никаких компиляций C++, никаких ручных скачиваний моделей. Работает сразу.

Почему Medium, а не Large?

Для MacBook Air M1 с 8GB RAM модель Medium — оптимальный выбор:

- ✅ Хороший баланс точности и скорости

- ✅ Работает стабильно на 8GB памяти

- ✅ Транскрипция быстрее чем Large

- ✅ Разница в точности минимальна для большинства задач

Если у вас M4 с 128GB RAM — можете использовать Large V3 для максимальной точности. В репозитории есть пример конфигурации

config.m4-128gb.yaml.example

.

Практические кейсы

Кейс 1: Быстрая установка

Раньше: Компиляция C++, скачивание моделей, настройка — 20-30 минут

Теперь:

pip install

, запуск — 3 минуты

Результат: Экономия времени и нервов. Особенно важно для тех, кто не хочет разбираться с C++ компиляцией.

Кейс 2: Работа на M1 8GB

Раньше: Большая модель могла не влезть, проблемы с памятью, приложение падало

Теперь: Medium модель работает стабильно, память используется эффективно, никаких падений

Результат: Стабильная работа без проблем с памятью. Можно спокойно использовать для длинных диктовок.

Кейс 3: Обновление и поддержка

Раньше: При обновлении нужно перекомпилировать C++, проверить совместимость моделей

Теперь: Просто

pip install --upgrade mlx-whisper

— все автоматически

Результат: Легкое обновление без лишних действий. Всегда актуальная версия.

Кейс 4: Первый запуск

Раньше: Компиляция, скачивание модели, настройка путей, проверка разрешений — много шагов где можно ошибиться

Теперь: Установка зависимостей, настройка разрешений, запуск — все интуитивно

Результат: Меньше шансов ошибиться, быстрее начать использовать.

Что происходит при транскрипции?

Первое использование (требуется интернет один раз):

- MLX Whisper скачивает модель Medium из Hugging Face Hub (~977MB)

- Сохраняет в локальный кэш: ~/.cache/huggingface/hub/

- Занимает ~5 минут при первом запуске

Все последующие запуски (полностью офлайн):

- Модель загружается из локального кэша

- Обработка аудио происходит 100% локально на вашем Mac

- Никаких обращений к интернету

- Ваши данные не покидают ваш Mac

Почему это важно

1. Приватность: Ваш голос не отправляется никуда. Для бизнеса, юристов, врачей — критично.

2. Экономия: Никаких подписок. За сэкономленные деньги можно купить хороший микрофон или улучшить Mac.

3. Свобода: Нет зависимости от подписок. Работает когда нужно, сколько нужно.

4. Контроль: Можете настроить под себя, изменить код, добавить функции.

5. Простота: Теперь не нужно компилировать C++ — установка за 3 минуты.

Технические детали

Для тех, кто понимает

- MLX Whisper — нативный фреймворк Apple для машинного обучения на Apple Silicon

- Unified Memory Architecture — эффективное использование памяти на M1/M2/M3/M4

- Python 3.12 — основной язык, легко расширять

- rumps — нативное меню в строке меню macOS

- PyObjC — интеграция с macOS API для автовставки текста

Модель Medium обеспечивает точность сравнимую с коммерческими решениями, но работает локально и бесплатно. И самое главное — оптимизирована для MacBook Air M1 8GB.

Что дальше?

Проект обновлен на GitHub: https://github.com/FUYOH666/VoiceToText-MLX-M1-8Gb

Основные изменения:

- Переход на MLX Whisper - Оптимизация для M1 8GB - Упрощенная установка - Примеры конфигураций для разных MacBook

Можете:

- Использовать как есть (оптимизировано для M1 8GB)

- Настроить под себя (есть примеры для M4 128GB)

- Добавить функции

- Сделать форк и улучшить

Никаких ограничений. Это open-source проект, который показывает: то, за что платят деньги, можно сделать бесплатно и лучше. И теперь еще проще для пользователей MacBook Air M1 8GB.

Вывод

Если вчера я рассказал про альтернативу платным диктовкам, то сегодня — про версию, которая еще проще и работает лучше на MacBook Air M1 8GB.

Главное:

- Не нужно компилировать C++ - Модель скачивается автоматически - Оптимизировано для Apple Silicon - Работает стабильно на 8GB памяти

Попробуйте сами. Если поможет — поставьте звезду на GitHub. Если есть идеи — создайте issue или pull request.

---

Сделано для сообщества macOS разработчиков. Если проект помог — поделитесь с друзьями или коллегами.

Начать дискуссию