DeepSeek-R1 на домашнем железе: Как я за вечер собрал ИИ-секретаря, который делает отчеты по видео в 5 раз быстрее реальности
Введение: Почему я больше не верю «облакам»
Мы привыкли, что за любой чих нейросети нужно платить: либо деньгами ($20/мес за подписки), либо своими данными, отправляя их на чужие серверы. Когда мне понадобилось быстро «переварить» пачку видеозаписей, я понял — платные сервисы либо тормозят, либо требуют куки моего браузера и доступ к аккаунтам.
Я решил, что мне нужна автономная крепость. Скрипт, который работает без интернета, на моем железе, и выдает результат быстрее, чем я успею заварить кофе.
🛡 «А зачем это нужно? В браузере же всё есть!»
Знаю, в комментариях обязательно появятся эксперты: «Автор, ты изобрел велосипед! В Яндекс.Браузере всё встроено».
Отвечаю заранее:
- Масштаб: Попробуйте браузером обработать 20 видео за раз в автоматическом режиме. Мой скрипт делает это пачкой, пока я занимаюсь своими делами.
- Конфиденциальность: Вы готовы скармливать записи личных созвонов или корпоративных планерок сторонним серверам? Мой скрипт работает оффлайн — данные не покидают диск.
- Глубина анализа: Браузер дает «пересказ». Я же использую DeepSeek-R1, который проводит глубокий логический анализ (Reasoning) и вытаскивает те смыслы, которые «облака» часто пропускают.
⚙ Технический стек: Уши и мозги системы
Я разделил проект на три модуля. Это позволило мне отлаживать каждую часть отдельно и не сойти с ума.
1. «Уши» — Faster-Whisper
Для перевода звука в текст я выбрал faster-whisper. Он в разы быстрее стандартных решений.
- Результат: 30 минут видео превращаются в текст всего за 6 минут.
- Хак: Я жестко закрепил language='ru', чтобы ИИ не «галлюцинировал» и не начинал внезапно переводить русскую речь на английский.
2. «Мозги» — DeepSeek-R1 + Ollama
Вместо OpenAI я использую Ollama с моделью deepseek-r1:8b.
- Чистота: С помощью регулярных выражений (Regex) скрипт вырезает внутренние «мысли» модели (теги <think>), оставляя только структурированный отчет.
3. UX: Консоль для людей
Я добавил прогресс-бар в формате ММ:СС. Теперь я вижу не проценты, а реальное время видео: 👂 Обработано 04:30 из 09:32.
📊 Цифры и Пруфы: 2.1x быстрее реальности
Вот финальная статистика работы системы на моем ПК:
- Длительность видео: 9 мин 32 сек.
- Время обработки (включая анализ DeepSeek): 4 мин 30 сек.
- Вердикт: Скорость обработки в 2.1 раза быстрее реального времени.
🏁 Итог
За один вечер я собрал инструмент, который не требует денег, работает в лесу без интернета и сохраняет мою приватность.
Весь код и инструкцию по установке я выложил на GitHub:
Забирайте, пользуйтесь и больше не кормите облачные сервисы своими данными!