Данные – это новый мусор. Объемы данных не дают стратегических преимуществ. Китай и США сделали ста…

27.08.2020

«Инсайт кобот» — инструмент фильтрации сообщений в Telegram-чатах

Буду краток, мне надоело читать бесконечный спам и скроллить тысячи сообщений в чатах, поэтому вместе с командой мы создали решение, которое позволяет читать только интересных людей в Telegram.

3232

Игорь Колебин

27.08.2020

Данные – это новый мусор.
Объемы данных не дают стратегических преимуществ.
Китай и США сделали ставку на военные приложения ИИ. Причина этого кажется очевидной и политикам, и военным. Все они повторяют мантру из книги «Супердержавы ИИ» Кай-Фу Ли - «В век ИИ, когда данные - это новая нефть, Китай - новая Саудовская Аравия». Но реальность гораздо сложнее. Все далеко не так просто в обретении военного превосходства в ИИ-системах.
Новый отчет CSET не открывает новых истин, а всего лишь резюмирует – объемы данных имеют такое же значение для обретения военного преимущества, как объемы производимого страной мусора.
Кому придет в голову делать вывод о национальном технологическом превосходстве, если страна – мировой чемпион по мусору? А ведь с данными еще хуже, ибо данные грязнее любого мусора.
Отчет резюмирует.
1.
Объемы необработанных данных вообще не о чем не говорят.
2.
Ценность имеют лишь очищенные, преобразованные, маркированные данные, оптимизированные для обучения конкретными алгоритмами машинного обучения.
3.
Коммерческие данные из п. 2, хотя и полезны, но мало актуальны для военного оперативного ИИ. Данные подбираются под конкретные задачи, а ценность коммерческих данных и моделей машинного обучения для военных приложений крайне мала.
4.
Синтетическая генерация данных (типа той, что делал DeepMind для триумфа AlphaZero в настольных играх), будучи сделана с умом, в тысячу крат ценнее, чем горы данных, произведенных 1.4 миллиардом китайцев, звонящих по телефонам и оплачивающих покупки онлайн.
Ключевой вывод в том, что будущее ИИ (и в том числе военного ИИ) не в больших данных.
А политикам, военным (да и бизнесменам) пора понять – «супердержавой ИИ» станет не страна с горами мусорных данных. А страна, что научится превращать их в еду, питье, энергию и стратегическое военное преимущество.
Китай и США в этом пока не сильно преуспели. И в этой игре никто не проиграл, пока никто не выиграл.

Ответить

Александр Овчинников

27.08.2020

возможно фэйк, но в тему.

Павел Дуров:

"Самый опасный яд - информационный. От него нет вакцины, проникнув в нас, он убивает нас всю жизнь. Будущее за теми, кто выработает иммунитет к технологическим ловушкам и научится исключать из своей жизни информационные источники с разрушающим сознание контентом"

Ответить

Андрей Пущев

27.08.2020

Попробую объяснить по пунктам:

1. Trash In — Trash Out, тут всё верно.

Если данные по предпочтениям жевательной резинки, и жвачка только клубничная или банановая и каждая покупка размечена обезличенным идентификатором покупателя, то...

Ошибка в 2% по типу жвачки (допустим идентификаторы расставленные верно, что разумеется не так) даёт около 20% уже на сборе 40 данных вроде "жвачных."

Если же типов жвачки не два а сильно больше, и проблемы с индентификаторами и проблемы с хранением и чего там ещё—систематическая ошибка улетает в 50% уже на сборе пары десятков показателей.

1. Конечно да. Но из построения фразы предполагается что единственное предназначение данных: скормить нейронкам.

Это не так, и есть Data Mining, когда можно подослать красивую девушку/парня к известному объекту: "А у вас нет баннановой жвачки? Есть?! О! Моя любимая."

Но для этого и требуется точность. А также возможность быстро достать, и ещё лучше, построить план встречи автоматически то есть компьютером.

1. Тут всё просто: военные системы интересуются не продавцом-консультантом Валентином и даже не дядей Русиком-милиционнером, а вполне определёнными людьми. Это высшие государственные и военные деятели, а также личный состав спецподразделений.

А у них стоят защитные программы не отдающие никакой или почти никакой точной информации и дальше на концентраторах уже сфальсифицированные данные ещё и косячатся.

Всё косячит нельзя, а косячить по 1% населения и ещё 2% чтобы не догадались какой этот 1%—можно!

1. Я не очень понял какая синтетическая генерация данных имеется в виду. Точно не такая что в AlphaGo Zero.

А что нужно: см. выше. То есть автоматические планировщики, генераторы заданий по проверке и скрамблеры.

Ответить