Огонь! Локальное распознавание видео на M3
SmolVLM + веб-камера в реальном времени — и всё это локально на MacBook
Окей, это реально впечатляет.
Разработчик @ngxson собрал демо, где SmolVLM от Hugging Face работает с веб-камерой в real-time. Никаких облаков, никаких API-запросов — всё крутится локально на MacBook M3 через llama.cpp.
То есть модель смотрит на то, что видит камера, и сразу комментирует происходящее. Без задержек на отправку данных куда-то на сервер.
Почему это круто:
- Полная приватность — данные не уходят никуда
- Работает офлайн
- Показывает, насколько далеко зашла оптимизация VLM-моделей
Если хотите попробовать сами — вот репозиторий демо: github.com/ngxson/smolvlm-realtime-webcam
А вот llama.cpp, на котором это всё работает: github.com/ggml-org/llama.cpp
Локальные мультимодальные модели становятся всё более практичными. Ещё год назад такое казалось фантастикой.
Начать дискуссию