Microsoft представила новый алгоритм, который описывает изображения для незрячих — иногда почти как человек

До конца 2020 года систему интегрируют с Office и облачной платформой Azure. Там к ней получат доступ сторонние разработчики.

14 октября Microsoft представила вторую версию системы для автоматической подписи изображений, которая даёт им описания с человеческой точностью.

Её алгоритм генерирует описания изображений (субтитры и подписи) для веб-страниц и документов, упрощая жизнь людям с ограниченными возможностями.

Сверху, было: «Портрет кошки». Снизу, стало: «Серая кошка с закрытыми глазами»
Сверху, было: «Портрет кошки». Снизу, стало: «Серая кошка с закрытыми глазами»

Первую версию корпорация применяла в приложении для слабовидящих Seeing AI. Оно использует камеру смартфона для считывания текста, идентификации людей, описания предметов и окружения. Также Seeing AI умеет описывать содержимое изображений в почтовых клиентах, соцсетях и мессенджерах.

Демонстрация работы нового алгоритма

Компания запустила Seeing AI в 2017 году. Сообщество AppleVis для слепых и слабовидящих три года подряд признавало разработку «лучшим основным или вспомогательным сервисом для людей с ограниченными возможностями».

Новая система повысит точность Seeing AI. Она сможет не только идентифицировать объекты, но и находить между ними связи, понимать, как они взаимодействуют. К примеру, вместо «человек, стул, гитара» алгоритм скажет «человек сидит на стуле и играет на гитаре».

Улучшенную систему распознавания Microsoft встроит в Word, Outlook и PowerPoint, например, для автоматической подписи добавленных изображений.

Сверху, было: «Мужчина в синей рубашке». Снизу, стало: «Несколько человек в хирургических масках»
Сверху, было: «Мужчина в синей рубашке». Снизу, стало: «Несколько человек в хирургических масках»

Алгоритм будет доступен разработчикам приложений через инструменты компьютерного зрения Azure Cognitive Services. Seeing AI тоже получит обновление.

Компания добилась улучшения, предварительно обучив большую модель ИИ на наборе изображений в паре со словами-тегами, а не полными подписями (их генерировать менее эффективно). Каждый из тегов привязан к определённому объекту на изображении.

Затем предварительно обученную модель откорректировали на наборе изображений с подписями, что позволило ей составлять целые предложения. В конечном счёте она использовала свой «визуальный словарь» для создания подписей к изображениям с новыми объектами.

Новый алгоритм вдвое лучше прошлого, используемого с 2015 года, заверяет Microsoft. Он занимает первое место в тесте подписей изображений nocaps — основного бенчмарка в отрасли и по баллам обгоняет команду разработчиков nocaps.

Тест nocaps состоит из 166 тысяч «человеческих» подписей к 15 тысячам изображений. Сценарии разные — от спортивных состязаний до еды и праздников. Подписи алгоритмов не должны уступать человеческим.

Пример изображения nocaps
Пример изображения nocaps

Microsoft отмечает, что её алгоритм превосходит по качестве подписи человека, но пока это происходит только на определённых выборках.

По мнению одного из создателей nocaps Харша Аргавала, это не значит, что корпорация полностью решила проблему: метрики теста лишь приблизительно коррелируют с человеческими. Сам тест покрывает небольшой процент всевозможных вариантов изображений.

«В идеале подписи изображений (альтернативная подпись) должны быть во всех документах, соцсетях и интернете, поскольку это позволяет людям с ослабленным или пропавшим зрением получать доступ к контенту и общаться. Но, увы, это происходит не всегда», — говорит Сакиб Шейх, менеджер по разработке ПО в команде Microsoft AI.

4343
3 комментария

действительно круто!

5

Круть! Я правда все жду, когда кто-нить выкатит супер-переводчик - чтобы и текст и речь, а лучше сразу и синтез речи на основе полученного перевода. Пока как-то эволюционно и понемногу. Говорят Амазон прокачался...

Так уже есть наушники со встроенным переводом на другие языки. А для текста можно использовать камеру смартфона с переводчиком.