Нейробармен из Raspberry Pi с использованием нейронных сетей

Мы компания Hey Machine Learning. И мы продолжаем всячески автоматизировать наш офис. У нас уже и вода заказывается, и известно, кем моется посуда. Но наступило лето, вместе с ним и корпоративы. Что бы кто ни говорил, но отдых — важная часть рабочего процесса. И если «делу время, а потехе час», то давайте автоматизируем этот час.

Раньше мы использовали только камеры и алгоритмы, но в этом проекте решили пойти дальше и добавили микрокомпьютер Raspberry Pi 3 Model B.

Мы сконструировали автономное устройство, которое с помощью компьютерного зрения умеет распознавать лица и жесты «палец вверх» и «палец вниз», а также запоминать пользователей.

Используя рекомендательную систему на основе лайка и дизлайка, мы наделили устройство способностью составлять персонализированную карту коктейлей, а с помощью микрокомпьютера и дополнительных деталей — наливать эти коктейли.

В итоге у нас получился офисный робот-бармен, которого мы назвали Бендер.

Бендер

А теперь подробно о том, как мы это сделали.

Железо Бендера

Чтобы собрать нашего мини-робота, мы купили несколько необходимых деталей:

Необходимые детали

Из всего этого следует выделить микрокомпьютер Raspberry Pi 3 Model B. Он был представлен в феврале 2016 года, это самая ранняя модель Raspberry Pi третьего поколения.

Одноплатный компьютер версии Pi 3 B оснащен ARM-процессором Broadcom BCM2837. Устройство имеет 1 ГБ оперативной памяти, разъемы HDMI и Ethernet, четыре USB-порта, а также встроенный модуль беспроводной связи Wi-Fi и Bluetooth.

Четырехъядерного процессора достаточно для создания различных электронных устройств: от радиоприемников и медиаплееров до роботов и «умных» домов.

Основные элементы платы Raspberry Pi 3 Model B

Raspberry Pi 3 — мощное устройство, но его ресурсов недостаточно для всех нейросетевых вычислений. Поэтому мы ускорили его с помощью Intel Movidius Neural Compute Stick.

Movidius NCS очень похож на USB-флешку и предназначен для ускорения и облегчения разработки решений, связанных с искусственным интеллектом, нейронными сетями и глубоким обучением.

Устройство оборудовано процессором Vision Processing Unit (VPU) Myriad 2, который обладает производительностью 100 гигафлопс и энергопотреблением 1 Вт. Такие характеристики позволяют Movidius работать полностью автономно, без доступа к интернету и облачным сервисам.

Для распознавания лиц и жестов мы использовали оригинальную камеру Raspberry Pi Camera Module V2, оснащенную 8-мегапиксельной матрицей Sony IMX219. Устройство имеет фиксированный фокус и позволяет записывать видео в трёх режимах: 1080p30, 720p60 и VGA90.

Raspberry Pi Camera Module V2

Чтобы определять наличие стакана в устройстве и активировать систему, встроили ультразвуковой дальномер HC-SR04. Он определяет расстояние до объектов, генерируя звуковые импульсы на частоте 40 кГц и слушая эхо.

Ultrasonic sensor HC-SR04

Программная часть Бендера

Что касается возможностей робобармена — тоже по порядку.

Компьютерное зрение

Мы сфокусировали проект на создании персонализированной карты коктейлей для каждого сотрудника, а также на приготовлении этих напитков. Чтобы так было, необходимо знать, кто в данный момент заказывает коктейль и делал ли он заказ ранее.

Это значит, что нам не обойтись без компьютерного зрения. Технологию распознавания лиц мы уже использовали в проекте с мытьем посуды, и эти наработки нам пригодились в создании Бендера.

Чтобы работать с Movidius, мы взяли открытую библиотеку компьютерного зрения OpenCV и фреймворк OpenVINO с модулями dnn и dldt, предназначенных для работы с нейросетями.

Для рекомендательной системы также необходимо распознавать жесты лайка и дизлайка. С этой целью мы создали систему на основе компактной нейронной сети для обнаружения объектов Tiny-YOLO 3, которая умеет распознавать жесты «палец вверх» и «палец вниз». Проект получил название Rate Me и доступен для скачивания с GitHub.

Сеть для Rate Me тренировали с помощью фреймворка Darknet на 3000 размеченных в LabelImg изображениях. Также, чтобы запустить алгоритм на языке программирования Python, мы использовали DNN-модуль библиотеки OpenCV.

В итоге решение имеет mAP = 85,19%, среднее IoU = 73,89% и работает со скоростью 6–7 FPS на процессоре Intel Core TM i5-4300M при частоте 2.60 ГГц.

Именно на основе оценок пользователя «лайк» и «дизлайк» система составляет персональную карту коктейлей.

Следует также отметить, что мини-бармен постоянно считывает кадры с камеры. Каждое изображение прогоняется через модифицированную нейросеть SqueezeNet, которую мы решили использовать из-за заявленной высокой точности распознавания.

Она в нашей системе проверяет каждую картинку на наличие лица. В случае его нахождения модель head-pose-estimation-adas определяет положение головы. Если пользователь повернут в сторону камеры, то система с помощью легкой нейронной сети повторной идентификации обнаруживает характерные признаки лица и распознает человека.

Параллельно с ней кастомная модель на основе сверточной нейросети обрабатывает часть кадра «под лицом» для определения класса: палец вверх, палец вниз и ничего. Если нейронная сеть обнаруживает палец вверх, то для этого пользователя по последнему заказанному коктейлю записывается лайк в базу. Если палец вниз, то дизлайк.

Когда мини-бармен видит человека, не показывающего никаких жестов, и распознает этого человека, он должен ему приготовить коктейль. Но прежде чем наливать что-то, нужно проверить наличие стакана на необходимой позиции. Это мы делаем с помощью ультразвукового дальномера HC-SR04.

Если стакан на месте, тогда система передает данные рекомендательной системе, которая и выбирает релевантный коктейль. Потом устройство его готовит и ждет оценку.

Рекомендательная система

Рекомендательная система (РС) — это алгоритм, который на основе данных о пользователе подбирает наиболее релевантные для него товары и услуги, а в нашем случае — алкогольные коктейли. Обычно в РС используют один из двух подходов: коллаборативную фильтрацию или рекомендации на основе контента.

Коллаборативная фильтрация подбирает для каждого пользователя неизвестный релевантный коктейль, основываясь на известных предпочтениях группы пользователей.

Рекомендательная система на основе контента предлагает релевантные коктейли, основываясь на ингредиентах напитка и индивидуальных предпочтениях пользователя.

Базируясь на этих данных, строятся соответствующие векторы. В рекомендации попадают те коктейли, векторы которых ближе всего к вектору предпочтений пользователя.

В своем проекте мы использовали стратегию контентных рекомендаций. Например, если пользователю понравился коктейль, состоящий из джина и вермута, то система предложит еще коктейли, где встречается их коллаборация:

Данные пользователя

Рекомендации для пользователя

Еще важный момент. Количество бутылок в устройстве ограничено. Чтобы создать карту, необходимо знать, какие конкретно коктейли делать. Распарсив сайт TheCocktailDB, мы получили датасет из 578 различных напитков. Теперь его необходимо почистить и привести в требуемый вид.

Мы проверили ингредиенты и напитки на дубликат, а также преобразовали различные типы алкоголя в общие наименования: например, белый, золотой и темный ром стали просто ромом, бурбон и скотч — виски.

Снова проверили на дубликат, учитывая пропорции ингредиентов в коктейле. Если в двух коктейлях одинаковые составляющие, но разные их пропорции, то оставляли оба, в противном случае — один коктейль удаляли.

Полностью проработав данные, мы выбрали те коктейли, в которых совпадение алкогольных напитков максимальное. В нашем боте восемь позиций для бутылок: их заняли биттер, ром, джин, бурбон, вермут, Coca-Cola, апельсиновый сок и тоник. Из такого сета, с добавлением различных нельющихся компонентов, можно создать 57 коктейлей. Для начала достаточно.

Также в полученном мини-датасете мы привели все пропорции к миллилитрам, так как в изначальном наборе присутствовали такие меры, как галлон, унция, американская столовая ложка и прочее.

Часть итогового датасета

Результат

С тем, как работает Бендер, можно ознакомится в видеоролике ниже.

0
22 комментария
Написать комментарий...
Артур Кудрявцев

Кайф. Люблю, когда в ML и CV врывается синяя изолента и нужно спаять MVP на макетной плате. Не останавливайтесь!

Ответить
Развернуть ветку
Marina Glayboroda
Автор

Только вперёд 🙃

Ответить
Развернуть ветку
Артур Кудрявцев

И да, раздел «Разработка» по дефолту у всех выключен, поэтому тут просмотров будет мало. Чтобы люди увидели, лучше писать в популярные разделы, тем более тут не столько про программирование.

Ответить
Развернуть ветку
Marina Glayboroda
Автор

А в какие конкретно, вы считаете, лучше публиковать? Заранее спасибо!)

Ответить
Развернуть ветку
Alex Bach

Технически отлично заморочились, ещё бы внешний вид причесать :)

Ответить
Развернуть ветку
Marina Glayboroda
Автор

Спасибо!)
Но главное же то, что внутри!)))) А снаружи улучшить всегда можно)

Ответить
Развернуть ветку
Danil Khasanshin

Спасибо. Это прекрасно :)

Ответить
Развернуть ветку
Marina Glayboroda
Автор

Спасибо))

Ответить
Развернуть ветку
Максим Наумов

Можно такой же заказать для Лонг Айленда?

Ответить
Развернуть ветку
Marina Glayboroda
Автор

Да, конечно)))

Ответить
Развернуть ветку
Ако Чавчавадзе

А что за компания классная?

Ответить
Развернуть ветку
Marina Glayboroda
Автор

Hey Machine Learning) https://www.heyml.com/

Ответить
Развернуть ветку
Ако Чавчавадзе

Wow)

Ответить
Развернуть ветку
Wladimir Fokin

Добрый день. А можете поподробнее рассказать как берете разный алкоголь из разных бутылок и отправляете его в насос?

Ответить
Развернуть ветку
Алексис Второй

В таблице написано, что было закуплено 8 насосов. Похоже, что каждый отдельный компонент коктейля на отдельном трубопроводе.

Ответить
Развернуть ветку
Wladimir Fokin

Не заметил. Спасибо.

Ответить
Развернуть ветку
Marina Glayboroda
Автор

Если немного подробнее, то внутри коробки стоит восемь насосов — по штуке на бутылку. Насосы подключены к реле, которым управляет Raspberry Pi. Микрокомпьютер через реле включает насосы, каждый из которых соответствует необходимой по рецепту бутылке, на определённое время, за которое успевает прокачаться нужное количество миллилитров с бутылки.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Marina Glayboroda
Автор

Спасибо!

Ответить
Развернуть ветку
Никита Викторов

Это круто! Вдохновили на изучение Raspberry, тоже хочу такого бармена но без распознавания, я в семье один пьяница. Да и круто было бы управлять им с мобилы, еще бы как-то решить проблему с добавлением льда.

Ответить
Развернуть ветку
Marina Glayboroda
Автор

Спасибо за отзыв! Приконектить систему к смартфону легко, а вот со льдом - чуть сложнее, но тоже возможно)

Ответить
Развернуть ветку
Артур М.

Спасибо за интереснейший кейс.
Опубликовал на форуме https://armpc.ru/f про одноплатные компьютеры.

Ответить
Развернуть ветку
19 комментариев
Раскрывать всегда