{"id":7016,"title":"\u0423\u0433\u0430\u0434\u0430\u0439\u0442\u0435 \u0433\u043e\u0440\u043e\u0434\u0430 \u043f\u043e \u0437\u0432\u0443\u043a\u0443 \u043e\u0442\u043a\u0440\u044b\u0432\u0430\u044e\u0449\u0435\u0433\u043e\u0441\u044f \u043f\u0438\u0432\u0430 \u0438 \u043f\u0435\u043d\u0438\u044e \u043a\u0438\u0442\u043e\u0432","url":"\/redirect?component=advertising&id=7016&url=https:\/\/vc.ru\/special\/sound&placeBit=1&hash=6ca24c77fedb0a01bd41595a6fbd498b5375a294c2e3b54a129aa318671b77a3","isPaidAndBannersEnabled":false}

Microsoft представила новый алгоритм, который описывает изображения для незрячих — иногда почти как человек Статьи редакции

До конца 2020 года систему интегрируют с Office и облачной платформой Azure. Там к ней получат доступ сторонние разработчики.

14 октября Microsoft представила вторую версию системы для автоматической подписи изображений, которая даёт им описания с человеческой точностью.

Её алгоритм генерирует описания изображений (субтитры и подписи) для веб-страниц и документов, упрощая жизнь людям с ограниченными возможностями.

Сверху, было: «Портрет кошки». Снизу, стало: «Серая кошка с закрытыми глазами»

Первую версию корпорация применяла в приложении для слабовидящих Seeing AI. Оно использует камеру смартфона для считывания текста, идентификации людей, описания предметов и окружения. Также Seeing AI умеет описывать содержимое изображений в почтовых клиентах, соцсетях и мессенджерах.

Демонстрация работы нового алгоритма

Компания запустила Seeing AI в 2017 году. Сообщество AppleVis для слепых и слабовидящих три года подряд признавало разработку «лучшим основным или вспомогательным сервисом для людей с ограниченными возможностями».

Новая система повысит точность Seeing AI. Она сможет не только идентифицировать объекты, но и находить между ними связи, понимать, как они взаимодействуют. К примеру, вместо «человек, стул, гитара» алгоритм скажет «человек сидит на стуле и играет на гитаре».

Улучшенную систему распознавания Microsoft встроит в Word, Outlook и PowerPoint, например, для автоматической подписи добавленных изображений.

Сверху, было: «Мужчина в синей рубашке». Снизу, стало: «Несколько человек в хирургических масках»

Алгоритм будет доступен разработчикам приложений через инструменты компьютерного зрения Azure Cognitive Services. Seeing AI тоже получит обновление.

Компания добилась улучшения, предварительно обучив большую модель ИИ на наборе изображений в паре со словами-тегами, а не полными подписями (их генерировать менее эффективно). Каждый из тегов привязан к определённому объекту на изображении.

Затем предварительно обученную модель откорректировали на наборе изображений с подписями, что позволило ей составлять целые предложения. В конечном счёте она использовала свой «визуальный словарь» для создания подписей к изображениям с новыми объектами.

Новый алгоритм вдвое лучше прошлого, используемого с 2015 года, заверяет Microsoft. Он занимает первое место в тесте подписей изображений nocaps — основного бенчмарка в отрасли и по баллам обгоняет команду разработчиков nocaps.

Тест nocaps состоит из 166 тысяч «человеческих» подписей к 15 тысячам изображений. Сценарии разные — от спортивных состязаний до еды и праздников. Подписи алгоритмов не должны уступать человеческим.

Пример изображения nocaps

Microsoft отмечает, что её алгоритм превосходит по качестве подписи человека, но пока это происходит только на определённых выборках.

По мнению одного из создателей nocaps Харша Аргавала, это не значит, что корпорация полностью решила проблему: метрики теста лишь приблизительно коррелируют с человеческими. Сам тест покрывает небольшой процент всевозможных вариантов изображений.

«В идеале подписи изображений (альтернативная подпись) должны быть во всех документах, соцсетях и интернете, поскольку это позволяет людям с ослабленным или пропавшим зрением получать доступ к контенту и общаться. Но, увы, это происходит не всегда», — говорит Сакиб Шейх, менеджер по разработке ПО в команде Microsoft AI.

{ "author_name": "Евгений Делюкин", "author_type": "editor", "tags": ["\u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u0435","\u0438\u0438","microsoft"], "comments": 3, "likes": 42, "favorites": 23, "is_advertisement": false, "subsite_label": "ml", "id": 167435, "is_wide": true, "is_ugc": false, "date": "Thu, 15 Oct 2020 19:45:00 +0300", "is_special": false }
0
3 комментария
Популярные
По порядку

действительно круто!

5

Круть! Я правда все жду, когда кто-нить выкатит супер-переводчик - чтобы и текст и речь, а лучше сразу и синтез речи на основе полученного перевода. Пока как-то эволюционно и понемногу. Говорят Амазон прокачался...

0

Так уже есть наушники со встроенным переводом на другие языки. А для текста можно использовать камеру смартфона с переводчиком.

0
Читать все 3 комментария
Как OTUS стал платформой для самореализации. История преподавателя

Наш преподаватель, специалист по Data Science, решил поделиться своей историей преподавания. Он рассказал, как пришел в эту сферу, с какими трудностями столкнулся на пути к преподаванию и что ему помогает. А еще поделился советами, как поддерживать внимание студентов и сделать занятия полезными и увлекательными.

Наладили производство подделок и обманули Лувр: как братья из Одессы заработали на фальшивых древностях Статьи редакции

Шепсель и Лейба Гохманы в конце 19-го века продали Франции подделку под видом древней золотой тиары за 200 тысяч франков и ушли безнаказанными, а создатель украшения прославился в Европе — его тиара до сих пор хранится в Лувре.

Открытка с изображением поддельной тиары скифского царя Сайтаферна Amusing Planet
Я устал жить на автомате и сделал бота в Telegram, который напоминает сколько мне осталось жить

Теперь бот присылает каждую неделю новую таблицу жизни, где видно сколько мне осталось до 90 лет. Красный квадрат – 1 прожитая неделя.

Пример календаря жизни. @life_table_bot
Cloud CDN: что это такое, как устроено и кому нужно. Разбираем на примере бургеров

Cloud CDN — это сеть быстрой доставки статического контента в формате услуги облачного провайдера. Объяснить, как работает технология, проще всего на примере — сравнить Cloud CDN с популярным продуктом, который выглядит плюс-минус одинаково вне зависимости от того, заказали вы его в Москве, Питере или Нью-Йорке. Знакомьтесь: классический бургер.…

ПСБ запустил личный кабинет для предпринимателей. Там можно следить онлайн за каждым своим терминалом

Сервис предоставляется бесплатно.

Как не попасть в карьерную ловушку тимлида: личный опыт

Кажется, что тимлиду просто некуда расти: дальше надо либо идти в менеджмент, либо наоборот, становиться узконаправленным разработчиком. По просьбе «Лаборатории Касперского» Евгений Мацюк, который прошел в компании неординарный путь, рассказал о своих карьерных развилках во время и после тимлидства, а также поделился опытом горизонтального роста.

Исследование: сотрудники хотели бы иметь комнату отдыха, бесплатный сок, а работодатели уже готовы покупать ЗОЖ-снеки

Онлайн-сервис доставки продуктов и товаров СберМаркет и исследовательское агентство Research Me спросили сотрудников, как они хотели бы питаться в офисе и что в нем видеть. В опросе приняли участие более 1500 работающих людей по всей России. Сервис также спросил работодателей – В2В-клиентов СберМаркета: что они покупают в офис, что точно никогда…

Реклама в газетах и CRM: как мы массово нанимаем синих воротничков в швейное производство

У нас в Кофтёнышах, 80% сотрудников — это производственный персонал: швеи, упаковщицы, мастера, а 20% — коммерческий и административный: дизайнеры, маркетологи, менеджеры интернет-магазина.

Несколько лет у нас было чёткое деление, где искать людей на свои позиции: синие воротнички на SuperJob и Авито, белые воротнички — на HeadHunter. Со временем видение изменилось, а подход мы систематизировали.

«М.Видео» не привёз часть заказа и клиент не может ничего сделать уже несколько недель

TL;DR;
Заказал и оплатил 02 октября два товара в М.видео, в доставку 06 октября привезли один товар и не привезли сетевой фильтр. Три недели попыток хоть как-то решить проблему официально и неофициально безуспешны, за это время не было даже попытки позвонить например мне. Обращение без ответа, операторы врут, фильтра у меня нет, денег у меня…

Правительство обязало мессенджеры регистрировать пользователей по паспортным данным с марта 2022 года Статьи редакции

Сервисы должны будут запрашивать данные у операторов, а те — предоставлять их в течение 20 минут после регистрации пользователя.

null