{"id":9001,"title":"\u0417\u0430\u0447\u0435\u043c \u043d\u0443\u0436\u0435\u043d \u0444\u0438\u043d\u0442\u0435\u0445 \u043a\u0430\u043a \u0441\u0435\u0440\u0432\u0438\u0441. \u041d\u0430\u043f\u0430\u0434\u0430\u0435\u043c \u0441 \u043a\u0440\u0438\u0442\u0438\u043a\u043e\u0439","url":"\/redirect?component=advertising&id=9001&url=https:\/\/vc.ru\/promo\/321129-kritika-finteh-kak-servis-eto-dorogo-slozhno-i-slishkom-universalno&placeBit=1&hash=0f11beca127b0260f19ba1d57bd2ebb2f81750b56fe49269b93cb930545c9faa","isPaidAndBannersEnabled":false}

Microsoft представила новый алгоритм, который описывает изображения для незрячих — иногда почти как человек Статьи редакции

До конца 2020 года систему интегрируют с Office и облачной платформой Azure. Там к ней получат доступ сторонние разработчики.

14 октября Microsoft представила вторую версию системы для автоматической подписи изображений, которая даёт им описания с человеческой точностью.

Её алгоритм генерирует описания изображений (субтитры и подписи) для веб-страниц и документов, упрощая жизнь людям с ограниченными возможностями.

Сверху, было: «Портрет кошки». Снизу, стало: «Серая кошка с закрытыми глазами»

Первую версию корпорация применяла в приложении для слабовидящих Seeing AI. Оно использует камеру смартфона для считывания текста, идентификации людей, описания предметов и окружения. Также Seeing AI умеет описывать содержимое изображений в почтовых клиентах, соцсетях и мессенджерах.

Демонстрация работы нового алгоритма

Компания запустила Seeing AI в 2017 году. Сообщество AppleVis для слепых и слабовидящих три года подряд признавало разработку «лучшим основным или вспомогательным сервисом для людей с ограниченными возможностями».

Новая система повысит точность Seeing AI. Она сможет не только идентифицировать объекты, но и находить между ними связи, понимать, как они взаимодействуют. К примеру, вместо «человек, стул, гитара» алгоритм скажет «человек сидит на стуле и играет на гитаре».

Улучшенную систему распознавания Microsoft встроит в Word, Outlook и PowerPoint, например, для автоматической подписи добавленных изображений.

Сверху, было: «Мужчина в синей рубашке». Снизу, стало: «Несколько человек в хирургических масках»

Алгоритм будет доступен разработчикам приложений через инструменты компьютерного зрения Azure Cognitive Services. Seeing AI тоже получит обновление.

Компания добилась улучшения, предварительно обучив большую модель ИИ на наборе изображений в паре со словами-тегами, а не полными подписями (их генерировать менее эффективно). Каждый из тегов привязан к определённому объекту на изображении.

Затем предварительно обученную модель откорректировали на наборе изображений с подписями, что позволило ей составлять целые предложения. В конечном счёте она использовала свой «визуальный словарь» для создания подписей к изображениям с новыми объектами.

Новый алгоритм вдвое лучше прошлого, используемого с 2015 года, заверяет Microsoft. Он занимает первое место в тесте подписей изображений nocaps — основного бенчмарка в отрасли и по баллам обгоняет команду разработчиков nocaps.

Тест nocaps состоит из 166 тысяч «человеческих» подписей к 15 тысячам изображений. Сценарии разные — от спортивных состязаний до еды и праздников. Подписи алгоритмов не должны уступать человеческим.

Пример изображения nocaps

Microsoft отмечает, что её алгоритм превосходит по качестве подписи человека, но пока это происходит только на определённых выборках.

По мнению одного из создателей nocaps Харша Аргавала, это не значит, что корпорация полностью решила проблему: метрики теста лишь приблизительно коррелируют с человеческими. Сам тест покрывает небольшой процент всевозможных вариантов изображений.

«В идеале подписи изображений (альтернативная подпись) должны быть во всех документах, соцсетях и интернете, поскольку это позволяет людям с ослабленным или пропавшим зрением получать доступ к контенту и общаться. Но, увы, это происходит не всегда», — говорит Сакиб Шейх, менеджер по разработке ПО в команде Microsoft AI.

0
3 комментария
Популярные
По порядку

действительно круто!

5

Круть! Я правда все жду, когда кто-нить выкатит супер-переводчик - чтобы и текст и речь, а лучше сразу и синтез речи на основе полученного перевода. Пока как-то эволюционно и понемногу. Говорят Амазон прокачался...

0

Так уже есть наушники со встроенным переводом на другие языки. А для текста можно использовать камеру смартфона с переводчиком.

0
Читать все 3 комментария
Завод по производству идей. Как работают акселераторы, зачем они нужны стартапам и куда идти с идеей прямо сейчас

По данным Startup Genome, 9 из 10 стартапов терпят неудачу. Возможных причин «смерти» много: недостаточно протестированная гипотеза, неподтвержденная юнит-экономика, неверная стратегия или просто неудача в подходе к продажам.

Что Tele2 предлагает клиентам в «черную пятницу»

На главной распродаже года клиентов компании ждут сразу несколько интересных предложений: скидки на смартфоны, пакеты SMS и безлимитный трафик на YouTube, Яндекс.Карты, Яндекс.Навигатор.

@АнтиспамБот — когда ты реальная заноза в з@днице, или как давали отпор «П0шлым_Дев4енкам»

Прошло меньше двух недель с того дня, как в статье на vc.ru я рассказал про @antispamname_bot, предназначенный для борьбы со спамом в никнейме юзеров телеграмма вида «PEАЛЬНЫЕ_ZНAКОМСТVА» и «ПОИСК_PAPTHЕRОV».

Авито возглавила три рейтинга App Annie
Кнопка 112 — приложение с определением адреса и большой кнопкой вызова
Документы сгорели, а главный свидетель выпал из вертолёта: история золотого месторождения, стоившего акционерам $3 млрд Статьи редакции

Проект разработки «крупнейшего золотого месторождения» компанией Bre-X на острове Борнео оказался мошенничеством на миллиарды долларов, за которое так и не смогли никого наказать.

Команда Bre-X на Борнео, около 1997 года, слева направо: менеджер участка Джером Альто, старший вице-президент Джон Фельдерхоф, менеджер по разведке Майкл де Гузман и геолог Сезар Пуспос Сalgary Herald
"Тестировщик" – это просто
Истории поиска product/market fit от основателей Netflix, Uber, Airbnb и других успешных компаний Статьи редакции
Из науки в IT: как создать свой стартап и стать преподавателем

Как перейти в IT из другой сферы? Как разработать курс, которому нет аналогов? Как студенту получить максимум пользы от занятий? Рассказывает преподаватель OTUS Сергей Окатов, руководитель курсов «Kotlin Backend Developer» и «Kotlin Developer. Basic».

Хочу кухню как у подруги: зачем в Циан сделали поиск квартир по фото

Рассказывает Юлия Зыкова, руководитель команды «Аудитория» в Циан.

Как команде расставить приоритеты, когда всё кажется важным

Мы в WEEEK часто ошибались с приоритетами — брались не за те задачи, постоянно всё пересматривали, путались и т. д. Отчасти из-за этого хаоса мы работали в реактивном режиме — действовали «по обстановке», а не «по плану». Это довольно обычное дело для стартапа, но наша-то цель — помогать людям и командам приводить свои дела в порядок. Поэтому мы…

null