Продолжение предыдущего поста про бесплатную альтернативу платным диктовкам. Теперь с упрощенной установкой для пользователей MacBook Air M1 8GB
---
Вчера я рассказал про VTTv2 — бесплатную альтернативу платным диктовкам на базе whisper.cpp
Что изменилось
Если ранее проект использовал whisper.cpp (требовал компиляцию C++ и ручное скачивание моделей), то теперь используется MLX Whisper — нативный фреймворк Apple для машинного обучения.
Что это значит для вас:
- ✅ Не нужно компилировать C++ — просто
pip install- ✅ Модель скачивается автоматически при первом использовании
- ✅ Оптимизировано специально для Apple Silicon — эффективнее использует память
- ✅ Работает стабильнее на M1 8GB — меньше проблем с инициализацией
Проблема whisper.cpp для M1 8GB
В прошлой версии использовался whisper.cpp:
- Требовал компиляцию C++ (см. инструкцию вчерашнего поста) — 10-15 минут
- Нужно было вручную скачивать модели — ~1GB для Large v3
- Модель Large v3 могла быть тяжелой для 8GB RAM — риск нехватки памяти
- Проблемы с инициализацией на некоторых конфигурациях — "failed to initialize whisper context"
Если у вас MacBook Air M1 с 8GB памяти, это была реальная проблема. Большая модель могла не влезть, а компиляция C++ отпугивала многих.
Решение: MLX Whisper
MLX (Machine Learning eXchange) — фреймворк Apple специально для Apple Silicon:
- Использует Unified Memory Architecture — эффективнее работает с памятью
- Оптимизирован для Neural Engine и GPU на Apple Silicon
- Автоматически управляет памятью — не нужно настраивать вручную
- Работает быстрее чем универсальные решения типа whisper.cpp
Практический результат для M1 8GB
Раньше (whisper.cpp):
- Компиляция C++ — 10-15 минут
- Скачивание модели Large v3 — ~1GB
- Риск нехватки памяти на 8GB - Проблемы с инициализацией
Теперь (MLX Whisper):
- Установка:
pip install mlx mlx-whisper— 2 минуты
- Модель Medium скачивается автоматически — ~977MB (оптимально для 8GB)
- Эффективное использование памяти — работает стабильно
- Никаких проблем с инициализацией
Что получилось: VTTv2 v2.0
✅ Полностью бесплатно — никаких подписок, никаких ограничений
✅ 100% локально — все данные остаются на вашем Mac
✅ Работает офлайн — интернет не нужен после установки
✅ Модель Medium — оптимальный баланс точности и скорости для M1 8GB
✅ Автовставка текста — как в платных решениях
✅ Проще установка — не нужно компилировать C++
✅ Оптимизация для Apple Silicon — эффективнее использует память
Установка за 3 минуты (для M1 8GB)
Шаг 1: Клонируем репозиторий
Шаг 2: Устанавливаем зависимости
Создаем виртуальное окружение
python3.12 -m venv venv
Активируем
source venv/bin/activate
Обновляем pip
pip install --upgrade pip==25.3
Устанавливаем зависимости (MLX Whisper включен)
pip install -r requirements.txt
Важно: MLX Whisper автоматически скачает модель
mlx-community/whisper-mediumпри первом использовании (требуется интернет только один раз). Это оптимальный выбор для M1 с 8GB RAM.
Шаг 3: Настраиваем разрешения macOS
ВАЖНО: Перед запуском:
- Системные настройки > Конфиденциальность > Микрофон — добавьте Terminal - Системные настройки > Конфиденциальность > Управление компьютером — добавьте Terminal
Шаг 4: Запускаем
python src/main.py
Всё. Никаких компиляций C++, никаких ручных скачиваний моделей. Работает сразу.
Почему Medium, а не Large?
Для MacBook Air M1 с 8GB RAM модель Medium — оптимальный выбор:
- ✅ Хороший баланс точности и скорости
- ✅ Работает стабильно на 8GB памяти
- ✅ Транскрипция быстрее чем Large
- ✅ Разница в точности минимальна для большинства задач
Если у вас M4 с 128GB RAM — можете использовать Large V3 для максимальной точности. В репозитории есть пример конфигурации
config.m4-128gb.yaml.example.
Практические кейсы
Кейс 1: Быстрая установка
Раньше: Компиляция C++, скачивание моделей, настройка — 20-30 минут
Теперь:
pip install, запуск — 3 минуты
Результат: Экономия времени и нервов. Особенно важно для тех, кто не хочет разбираться с C++ компиляцией.
Кейс 2: Работа на M1 8GB
Раньше: Большая модель могла не влезть, проблемы с памятью, приложение падало
Теперь: Medium модель работает стабильно, память используется эффективно, никаких падений
Результат: Стабильная работа без проблем с памятью. Можно спокойно использовать для длинных диктовок.
Кейс 3: Обновление и поддержка
Раньше: При обновлении нужно перекомпилировать C++, проверить совместимость моделей
Теперь: Просто
pip install --upgrade mlx-whisper— все автоматически
Результат: Легкое обновление без лишних действий. Всегда актуальная версия.
Кейс 4: Первый запуск
Раньше: Компиляция, скачивание модели, настройка путей, проверка разрешений — много шагов где можно ошибиться
Теперь: Установка зависимостей, настройка разрешений, запуск — все интуитивно
Результат: Меньше шансов ошибиться, быстрее начать использовать.
Что происходит при транскрипции?
Первое использование (требуется интернет один раз):
- MLX Whisper скачивает модель Medium из Hugging Face Hub (~977MB)
- Сохраняет в локальный кэш: ~/.cache/huggingface/hub/
- Занимает ~5 минут при первом запуске
Все последующие запуски (полностью офлайн):
- Модель загружается из локального кэша
- Обработка аудио происходит 100% локально на вашем Mac
- Никаких обращений к интернету
- Ваши данные не покидают ваш Mac
Почему это важно
1. Приватность: Ваш голос не отправляется никуда. Для бизнеса, юристов, врачей — критично.
2. Экономия: Никаких подписок. За сэкономленные деньги можно купить хороший микрофон или улучшить Mac.
3. Свобода: Нет зависимости от подписок. Работает когда нужно, сколько нужно.
4. Контроль: Можете настроить под себя, изменить код, добавить функции.
5. Простота: Теперь не нужно компилировать C++ — установка за 3 минуты.
Технические детали
Для тех, кто понимает
- MLX Whisper — нативный фреймворк Apple для машинного обучения на Apple Silicon
- Unified Memory Architecture — эффективное использование памяти на M1/M2/M3/M4
- Python 3.12 — основной язык, легко расширять
- rumps — нативное меню в строке меню macOS
- PyObjC — интеграция с macOS API для автовставки текста
Модель Medium обеспечивает точность сравнимую с коммерческими решениями, но работает локально и бесплатно. И самое главное — оптимизирована для MacBook Air M1 8GB.
Что дальше?
Проект обновлен на GitHub: https://github.com/FUYOH666/VoiceToText-MLX-M1-8Gb
Основные изменения:
- Переход на MLX Whisper - Оптимизация для M1 8GB - Упрощенная установка - Примеры конфигураций для разных MacBook
Можете:
- Использовать как есть (оптимизировано для M1 8GB)
- Настроить под себя (есть примеры для M4 128GB)
- Добавить функции
- Сделать форк и улучшить
Никаких ограничений. Это open-source проект, который показывает: то, за что платят деньги, можно сделать бесплатно и лучше. И теперь еще проще для пользователей MacBook Air M1 8GB.
Вывод
Если вчера я рассказал про альтернативу платным диктовкам, то сегодня — про версию, которая еще проще и работает лучше на MacBook Air M1 8GB.
Главное:
- Не нужно компилировать C++ - Модель скачивается автоматически - Оптимизировано для Apple Silicon - Работает стабильно на 8GB памяти
Попробуйте сами. Если поможет — поставьте звезду на GitHub. Если есть идеи — создайте issue или pull request.
---
Сделано для сообщества macOS разработчиков. Если проект помог — поделитесь с друзьями или коллегами.