Огонь! Локальное распознавание видео на M3

SmolVLM + веб-камера в реальном времени — и всё это локально на MacBook

Окей, это реально впечатляет.

Разработчик @ngxson собрал демо, где SmolVLM от Hugging Face работает с веб-камерой в real-time. Никаких облаков, никаких API-запросов — всё крутится локально на MacBook M3 через llama.cpp.

То есть модель смотрит на то, что видит камера, и сразу комментирует происходящее. Без задержек на отправку данных куда-то на сервер.

Почему это круто:

  • Полная приватность — данные не уходят никуда
  • Работает офлайн
  • Показывает, насколько далеко зашла оптимизация VLM-моделей

Если хотите попробовать сами — вот репозиторий демо: github.com/ngxson/smolvlm-realtime-webcam

А вот llama.cpp, на котором это всё работает: github.com/ggml-org/llama.cpp

Локальные мультимодальные модели становятся всё более практичными. Ещё год назад такое казалось фантастикой.

1
Начать дискуссию