Данные – это новый мусор. Объемы данных не дают стратегических преимуществ. Китай и США сделали ставку на военные приложения ИИ. Причина этого кажется очевидной и политикам, и военным. Все они повторяют мантру из книги «Супердержавы ИИ» Кай-Фу Ли - «В век ИИ, когда данные - это новая нефть, Китай - новая Саудовская Аравия». Но реальность гораздо сложнее. Все далеко не так просто в обретении военного превосходства в ИИ-системах. Новый отчет CSET не открывает новых истин, а всего лишь резюмирует – объемы данных имеют такое же значение для обретения военного преимущества, как объемы производимого страной мусора. Кому придет в голову делать вывод о национальном технологическом превосходстве, если страна – мировой чемпион по мусору? А ведь с данными еще хуже, ибо данные грязнее любого мусора. Отчет резюмирует. 1. Объемы необработанных данных вообще не о чем не говорят. 2. Ценность имеют лишь очищенные, преобразованные, маркированные данные, оптимизированные для обучения конкретными алгоритмами машинного обучения. 3. Коммерческие данные из п. 2, хотя и полезны, но мало актуальны для военного оперативного ИИ. Данные подбираются под конкретные задачи, а ценность коммерческих данных и моделей машинного обучения для военных приложений крайне мала. 4. Синтетическая генерация данных (типа той, что делал DeepMind для триумфа AlphaZero в настольных играх), будучи сделана с умом, в тысячу крат ценнее, чем горы данных, произведенных 1.4 миллиардом китайцев, звонящих по телефонам и оплачивающих покупки онлайн. Ключевой вывод в том, что будущее ИИ (и в том числе военного ИИ) не в больших данных. А политикам, военным (да и бизнесменам) пора понять – «супердержавой ИИ» станет не страна с горами мусорных данных. А страна, что научится превращать их в еду, питье, энергию и стратегическое военное преимущество. Китай и США в этом пока не сильно преуспели. И в этой игре никто не проиграл, пока никто не выиграл.
"Самый опасный яд - информационный. От него нет вакцины, проникнув в нас, он убивает нас всю жизнь. Будущее за теми, кто выработает иммунитет к технологическим ловушкам и научится исключать из своей жизни информационные источники с разрушающим сознание контентом"
Если данные по предпочтениям жевательной резинки, и жвачка только клубничная или банановая и каждая покупка размечена обезличенным идентификатором покупателя, то...
Ошибка в 2% по типу жвачки (допустим идентификаторы расставленные верно, что разумеется не так) даёт около 20% уже на сборе 40 данных вроде "жвачных."
Если же типов жвачки не два а сильно больше, и проблемы с индентификаторами и проблемы с хранением и чего там ещё—систематическая ошибка улетает в 50% уже на сборе пары десятков показателей.
1. Конечно да. Но из построения фразы предполагается что единственное предназначение данных: скормить нейронкам.
Это не так, и есть Data Mining, когда можно подослать красивую девушку/парня к известному объекту: "А у вас нет баннановой жвачки? Есть?! О! Моя любимая."
Но для этого и требуется точность. А также возможность быстро достать, и ещё лучше, построить план встречи автоматически то есть компьютером.
1. Тут всё просто: военные системы интересуются не продавцом-консультантом Валентином и даже не дядей Русиком-милиционнером, а вполне определёнными людьми. Это высшие государственные и военные деятели, а также личный состав спецподразделений.
А у них стоят защитные программы не отдающие никакой или почти никакой точной информации и дальше на концентраторах уже сфальсифицированные данные ещё и косячатся.
Всё косячит нельзя, а косячить по 1% населения и ещё 2% чтобы не догадались какой этот 1%—можно!
1. Я не очень понял какая синтетическая генерация данных имеется в виду. Точно не такая что в AlphaGo Zero.
А что нужно: см. выше. То есть автоматические планировщики, генераторы заданий по проверке и скрамблеры.
Данные – это новый мусор.
Объемы данных не дают стратегических преимуществ.
Китай и США сделали ставку на военные приложения ИИ. Причина этого кажется очевидной и политикам, и военным. Все они повторяют мантру из книги «Супердержавы ИИ» Кай-Фу Ли - «В век ИИ, когда данные - это новая нефть, Китай - новая Саудовская Аравия». Но реальность гораздо сложнее. Все далеко не так просто в обретении военного превосходства в ИИ-системах.
Новый отчет CSET не открывает новых истин, а всего лишь резюмирует – объемы данных имеют такое же значение для обретения военного преимущества, как объемы производимого страной мусора.
Кому придет в голову делать вывод о национальном технологическом превосходстве, если страна – мировой чемпион по мусору? А ведь с данными еще хуже, ибо данные грязнее любого мусора.
Отчет резюмирует.
1.
Объемы необработанных данных вообще не о чем не говорят.
2.
Ценность имеют лишь очищенные, преобразованные, маркированные данные, оптимизированные для обучения конкретными алгоритмами машинного обучения.
3.
Коммерческие данные из п. 2, хотя и полезны, но мало актуальны для военного оперативного ИИ. Данные подбираются под конкретные задачи, а ценность коммерческих данных и моделей машинного обучения для военных приложений крайне мала.
4.
Синтетическая генерация данных (типа той, что делал DeepMind для триумфа AlphaZero в настольных играх), будучи сделана с умом, в тысячу крат ценнее, чем горы данных, произведенных 1.4 миллиардом китайцев, звонящих по телефонам и оплачивающих покупки онлайн.
Ключевой вывод в том, что будущее ИИ (и в том числе военного ИИ) не в больших данных.
А политикам, военным (да и бизнесменам) пора понять – «супердержавой ИИ» станет не страна с горами мусорных данных. А страна, что научится превращать их в еду, питье, энергию и стратегическое военное преимущество.
Китай и США в этом пока не сильно преуспели. И в этой игре никто не проиграл, пока никто не выиграл.
возможно фэйк, но в тему.
Павел Дуров:
"Самый опасный яд - информационный. От него нет вакцины, проникнув в нас, он убивает нас всю жизнь. Будущее за теми, кто выработает иммунитет к технологическим ловушкам и научится исключать из своей жизни информационные источники с разрушающим сознание контентом"
Попробую объяснить по пунктам:
1. Trash In — Trash Out, тут всё верно.
Если данные по предпочтениям жевательной резинки, и жвачка только клубничная или банановая и каждая покупка размечена обезличенным идентификатором покупателя, то...
Ошибка в 2% по типу жвачки (допустим идентификаторы расставленные верно, что разумеется не так) даёт около 20% уже на сборе 40 данных вроде "жвачных."
Если же типов жвачки не два а сильно больше, и проблемы с индентификаторами и проблемы с хранением и чего там ещё—систематическая ошибка улетает в 50% уже на сборе пары десятков показателей.
1. Конечно да. Но из построения фразы предполагается что единственное предназначение данных: скормить нейронкам.
Это не так, и есть Data Mining, когда можно подослать красивую девушку/парня к известному объекту: "А у вас нет баннановой жвачки? Есть?! О! Моя любимая."
Но для этого и требуется точность. А также возможность быстро достать, и ещё лучше, построить план встречи автоматически то есть компьютером.
1. Тут всё просто: военные системы интересуются не продавцом-консультантом Валентином и даже не дядей Русиком-милиционнером, а вполне определёнными людьми. Это высшие государственные и военные деятели, а также личный состав спецподразделений.
А у них стоят защитные программы не отдающие никакой или почти никакой точной информации и дальше на концентраторах уже сфальсифицированные данные ещё и косячатся.
Всё косячит нельзя, а косячить по 1% населения и ещё 2% чтобы не догадались какой этот 1%—можно!
1. Я не очень понял какая синтетическая генерация данных имеется в виду. Точно не такая что в AlphaGo Zero.
А что нужно: см. выше. То есть автоматические планировщики, генераторы заданий по проверке и скрамблеры.