Робохроники ИИ: Tesla обзавелась «глазами», умные камеры следят за пожарами, а нейросеть играет в китайский покер

Ежемесячно команда RDL by red_mad_robot рассказывает про новости, кейсы и подходы в ИИ, которые можно переложить на нашу действительность и реально использовать. Главное за июнь уже здесь.

Бывший руководитель Uber ATG в Торонто Ракель Уртасун запустила стартап в области автономного грузового транспорта Waabi. В проект вложилась Aurora, которая стала миноритарным инвестором, а также Khosla Ventures и Uber. В первом раунде стартап привлек $83,5 млн.

В чем смысл Waabi? В отличие от своих конкурентов, таких как Waymo или Zoox, Waabi отойдёт от традиционного подхода к созданию беспилотников. Существующие на сегодняшний день стартапы, используют комбинацию алгоритмов и датчиков для обнаружения объектов, после чего принимают решения на основе полученной информации. Но на самом деле, для решения задач автономного вождения существует множество других более эффективных подходов, в том числе в рамках ИИ, утверждает Уртасун.

Традиционные методы ограничивают возможности искусственного интеллекта, поскольку разработчикам приходится вручную настраивать программный стек, а это сложно и трудоёмко.
Ракель Уртасун, CEO Waabi

Именно из-за этого, по словам руководителя стартапа, разработка автономных транспортных средств замедлилась. Существующие проекты работают в небольших и простых областях, ведь масштабирование весьма дорогостоящее и технически сложное.

Как это будет работать? Waabi разработан с помощью нового семейства алгоритмов, которое создано на основе глубокого обучения, вероятностных выводов и комплексной оптимизации. С их помощью разработчик сможет отследить процесс принятия системой решений и использовать уже известные ей знания, не обучая алгоритмы заново.

Кроме этого, команда Waabi создала систему, которая позволит ей тестировать и обучать алгоритмы в симуляторе реальных условий. Конечно, у компании останутся автомобили, которые собственными колёсами в тестовом режиме проедут заданные дороги общего пользования. Но симуляции позволят Waabi подготовиться и к этому этапу проверки.

Блогер из Пекина Чжи Хуэй Цзюнь, вдохновившись видео Google пятилетней давности (которое оказалось результатом монтажа), создал собственный беспилотный велосипед.

Google

Блогер-инженер установил на велосипед камеру глубины RGBD, акселерометр, гироскоп и лидар. Питается всё это с помощью литиевой батареи и работает 2–3 часа без подзарядки. А под сиденьем стоит главный вычислительный модуль.

Велосипед способен балансировать без водителя с помощью небольшого, но тяжёлого металлического колеса, расположенного под сиденьем. В случае крена оно мгновенно меняет направление вращения и предотвращает падение.

Для воплощения своей идеи Чжи Хуэй Цзюнь использовал напечатанные на 3D-принтере и обработанные на станке детали. Интересно, что автор занимался проектом только по выходным на протяжении четырёх месяцев.

А вот Tesla считает, что будущее беспилотников не за датчиками — компания отказывается от лидаров и радаров и полностью переходит на Тesla Vision — систему автопилота на базе компьютерного зрения.

Они не просто объявили, что отказываются от использования радаров. Они перестали выпускать модели с радарами и выпускают только с камерами.
Каковы были их истинные мотивы, мы, вероятно, никогда не узнаем. Судя по тому, сколько компаний разрабатывают автопилот на гибридной схеме — видео плюс лидары, у неё есть преимущества перед решением, которое опирается только на видеоданные о внешнем мире.
У схемы без радаров точно есть как минимум одно преимущество — один тип данных позволяет использовать архитектурно более простые модели, и динамичнее их тренировать. Есть гипотеза, что они отказались от лидаров, потому что моделировать их в виртуальной реальности труднее, чем визуальные сцены.
Поясню. Качество нейронных сетей в значительной степени определяется качеством датасетов. Для этой ниши чрезвычайно важно научить нейросеть реагировать на редкие, потенциально аварийные или даже аварийные ситуации. Копить такие кейсы в реальности слишком долго, дорого и опасно. Это толкает разработчиков моделировать такие случаи в виртуальной реальности. И тут сюрприз. Инструментов и технологий моделирования визуальных сцен много и они хорошо проработаны.
С инструментами моделирования сцены с точки зрения лидара всё гораздо печальнее. А скорость обучения нейросетей в этой нише драматически важна. Победитель забирает всё — первый, кто достигнет истинной автономности, заберёт большую долю рынка. Вот и могло оказаться так, что отказ от лидаров — плата за скорость разработки.
Юрий Чайников
, руководитель RDL by red_mad_robot

Власти округа Сонома в штате Калифорния используют технологии компьютерного зрения южнокорейской компании Alchera для выявления потенциальных пожаров.

Как это работает? Alchera использует компьютерное зрение для анализа изображений с камер ALERTWildfire — это сеть из примерно 800 камер, расположенных в нескольких западных штатах США, которая позволяет отслеживать пожары в реальном времени. Алгоритмы определяют характеристики дыма и умеют отличать его от облаков или тумана. Затем сотрудник Alchera проверяет и подтверждает результаты работы системы и отправляет предупреждения пожарным. Южнокорейская компания утверждает, что весь процесс занимает около минуты.

А в штате Нью-Мексико местное Управление лесного хозяйства применяет систему Descartes Labs, которая анализирует спутниковые изображения на предмет первых признаков пожара. Она использует машинное обучение для измерения и сравнения температуры земли и способна обнаружить наличие огня. В последнем случае система автоматически отправляет предупреждения чиновникам лесного хозяйства Нью-Мексико.

Округ противопожарной защиты города Аспен в штате Колорадо для обнаружения пожара испытывает нейросеть от стартапа Pano AI. Компания из Сан-Франциско использует камеры высокого разрешения, размещённые на вышках сотовой связи и на вершинах гор, а также на других точках.

Камеры вращаются вокруг собственной оси и раз в минуту по сотовой связи отправляют статичные изображения в систему облачных вычислений Pano. После этого алгоритмы анализируют полученные фотографии на наличие струй дыма.

Pano AI

Pano AI также сотрудничает с NOAA — Национальным управлением океанических и атмосферных исследований. С помощью спутниковых изображений система обнаруживает тепловые сигнатуры. А затем объединяет данные со спутника и камеры, создавая более точный способ фиксирования лесных пожаров.

Сеть гипермаркетов «Лента» тестирует несколько технологий компьютерного зрения:

Распознавание товара — «умные» весы определяют тип товара и предлагают покупателю подтвердить предложенный вариант;
Подсчёт количества покупателей у кассы — если очередь растёт, система сообщает об этом сотрудникам магазина;
Мониторинг торгового зала — система уведомляет работников, если на каких-то полках не хватает товаров.

В Индии запустят российскую систему распознавания лиц Ntechlab. Тридцать железнодорожных станций оснастят 470 камерами с компьютерным зрением, что позволит властям страны следить за соблюдением мер безопасности и контролировать пассажиропоток. В особо загруженные дни эти станции посещают до 10 млн человек. В Ntechlab говорят, что система справится с такой нагрузкой, так как способна одновременно распознавать до 50 человек в кадре.

Разработчик из США создал нейросеть DouZero, которая может играть в Доудичжу — разновидность покера. Сложность в том, что эта игра сочетает сотрудничество и соперничество.

Что за игра? «Доудичжу» переводится как «борьба с помещиком». Два или три крестьянина играют в команде против этого самого помещика. Цель игры — первым сбросить карты с руки.

В отличие от Го или шахмат, игроки в Доудичжу не видят карт других участников. И это, в совокупности с двойственной природой игры — соперничество плюс сотрудничество — значительно усложняет работу ИИ. Большинство существующих моделей разработаны для чего-то одного: или для состязания, или для коллаборации.

Кроме этого, в игре существует 27 472 возможных вариантов хода.

Как работает DouZero? В основе нейросети лежит алгоритм Deep Monte-Carlo (DMC) — версия классического метода Monte-Carlo (МС) с глубоким обучением с подкреплением, которая, по мнению автора проекта, очень подходит для игры в Доудичжу.

С одной стороны, Доудичжу — это эпизодическая задача. С другой, DMC можно легко распараллелить, чтобы эффективно генерировать множество выборок в секунду для решения проблемы высокой дисперсии.

Ну а в демо-версию можно поиграть здесь.

Нашли для вас полезную выжимку из выступлений экспертов на конференции ЦИПР 2021, которая посвящена проблемам внедрения ИИ в работу промышленных предприятий России. Для затравки — спойлер от Юрия Чайникова:

Данные есть, но работать с ними нельзя, потому что запрещено, и передавать их нельзя, потому что запрещено. Навыки их накопления, хранения и уничтожения — новые, неожиданные для предприятий. А если у нас нет данных, оценка экономического эффекта бессмысленна.
Юрий Чайников, руководитель RDL by red_mad_robot

Ещё один любопытный материал — «Исследование «Этика и «цифра»: от проблем к решениям». В нём раскрыты вопросы этики ИИ, приватность и защита персональных данных.

Facebook запускает в Instagram поиск товаров по фотографиям;
Github и OpenAI представили инструмент, который поможет программистам более эффективно писать код;
РЖД тестирует в Москве беспилотный поезд «Ласточка»;
Минтранс России разработал законопроект об автономных транспортных средствах;
«Билайн» обучает нейросеть работать с мусором — алгоритм способен мониторить график вывоза и в будущем сможет по фото находить нелегальные мусорные свалки;
Европейские регуляторы призывают запретить использование ИИ для распознавания человека в общедоступных местах;
ЧерМК (входит в «Северсталь Российская сталь») внедрил машинное зрение, чтобы контролировать работу конвейеров под землёй;
И снова «Билайн» — компания разрабатывает ИИ для поиска дорожных ям.

Nvidia представила приложение Canvas для генерации реалистичных пейзажей по наброскам.

Компания создала систему, генерирующую из фото «говорящую голову» для видеоконференций — ИИ-модель фиксирует движение человека и применяет его к ранее загруженному статичному изображению.

Nvidia и Google Cloud создают первую ИИ-лабораторию для 5G.

Компания «Яндекс» представила проект «Балабоба». С помощью нейросетей семейства YaLM (Yet another Language Model — компания вдохновлялась GPT-3 от OpenAI и иными языковыми моделями на архитектуре Transformer) он умеет писать тексты на любую тему, сохраняя связность и стиль.

Робохроники ИИ: Tesla обзавелась «глазами», умные камеры следят за пожарами, а нейросеть играет в китайский покер

Компания Facebook выпустила инструмент TextStylebrush, который подстраивает текст под стили написания. Хотите написать письмо почерком Илона Маска? Пожалуйста! Достаточно найти образец.

Пример работы TextStylebrush Facebook

Facebook заявляет, что использует более целостный подход к обучению генератора, который отделяет содержание текстового изображения от всех аспектов его внешнего вида. Архитектура TextStylebrush основана на модели StyleGAN2. Генератор умеет извлекать информацию о стиле конкретного слоя и внедрять её в изображение.

TextStylebrush также создаёт изображение с «мягкой маской», которое обозначает пиксели переднего плана, то есть саму текстовую область. Так генератор контролирует детали внешнего вида текста как с низким, так и с высоким разрешением.

Одной из потенциальных возможностей использования алгоритма компания называет перевод текста в режиме AR.

Робособака просто роскошно танцует под BTS — так Hyundai отметил покупку Boston Dynamics. К чему слова, смотрите сами.

Если понравилось или не понравилось, пишите в комментариях. Ведь без обратной связи робота не переобучить. И подписывайтесь на наш Telegram-канал Redmadnews, там мы собираем все самые свежие новости про ИИ и не только. Всем ИИ!

#redmadrobot #rdl #робохроники #ии #беспилотник #bostondynamics #facebook #google #nvidia #tesla

Робохроники ИИ: Tesla обзавелась «глазами», умные камеры следят за пожарами, а нейросеть играет в китайский покер

Наши любимые беспилотники

Другие новости из мира беспилотников

Компьютерное зрение в борьбе против пожаров в США

Как ещё компьютерное зрение использовали в июне

Нейросеть играет в сложнейший китайский покер

Чтиво выходного дня

Одной строкой

Минутка NVIDIA

Рубрика «Позалипать»

Fun AI