WEB 3.0 или жизнь без сайтов

Тим Бернерс-Ли в 1998 году ввел термин «семантический веб». Идея была проста: давайте научим компьютеры различать значение (смысл) контента, размещенного на веб-страницах, и объединим этот контент в единую семантическую паутину.

Позже концепция осмысленного связывания данных была ассоциирована с термином web 3.0, и грядущая версия интернета мыслилась, как семантическая сеть.

WEB 3.0 или жизнь без сайтов

Был разработан и стандартизирован специальный формат для записи семантических данных (RDF), язык для описания предметных областей (OWL) и язык запросов поиска связанных данных (SPARQL). Предполагалось, что все бросятся семантически размечать страницы своих сайтов… Но что-то пошло не так, и где-то к вскоре после 2010 года про web 3.0 практически забыли.

И вот, вслед за откатом нескольких волн массового интереса к цифровым технологиям - большие данные, интернет вещей, искусственный интеллект, блокчейн - на поверхность (не без подачи того же Тима Бернерса-Ли) опять всплывает термин “web 3.0”. Правда, чаще уже с новым эпитетом - “децентрализованный”, - подхваченным от незаметно сходящего со сцены блокчейна. Иногда, по старой памяти, в общий стек технологий децентрализованного web 3.0 до кучи с интернетом вещей и искусственным интеллектом добавляют семантический поиск данных, но как его подружить с децентрализацией обычно не уточняется. Однако, прежде чем обсудить место семантического представления данных в новом децентрализованном интернете, давайте попытаемся разобраться в причинах провала первого - сугубо семантического - захода на web 3.0.

Семантическая паутина изначально представлялась исключительно как надстройка над существующим интернетом (тогда еще, естественно, web 1.0). То есть в качестве носителя семантически размеченных данных мыслились обычные страницы и другой контент миллионов разношерстных веб-сайтов. Предлагалось каждый объект - каждую веб страницу, файл, описание оффлайн объекта на веб-странице - наделить унифицированным идентификатором и, используя эти ссылки, объединить весь сетевой контент в единую семантическую сеть…

Так вот, даже этого знания о планах плетения семантической паутины уже достаточно, чтобы понять их бесперспективность. Очевидно, что самым слабым звеном в этом проекте является использование в качестве его основы обычных веб-страниц. Во-первых, страницы периодически меняют свои адреса, а то и просто пропадают вместе со всем сайтом и его контентом. Во-вторых, последним, кому стоило бы доверить семантическую разметку, так это владельцам сайтов: у них нет никакого стимула это делать, а если бы они за это и взялись, то понаписали бы что угодно, только бы заманить к себе пользователей (именно по этой причине поисковики давно отказались учитывать ключевые слова при ранжировании страниц). В-третьих, один и тот же контент (статьи, картинки, записи об оффлайн объектах) многократно дублируется на тысячах и тысячах сайтах, что принципиально исключает возможность добиться уникальной адресации. Ведь очевидно, что каждый владелец сайта будет помечать контент, как свой. В-четвертых, даже если предположить, что получилось бы идеально накинуть семантическую сеть на веб-сайты, то для реализации семантического поиска все равно пришлось бы хранить все страницы со всеми дубликатами контента в одном месте, как это и делают современные поисковые машины. И в конечном счете хоть как-то применить семантические технологии удалось только там, где возможна централизованная проверка контента, то есть на мега порталах, типа Google, который стал использовать семантическую разметку данных, предложенную Schema.org.

Итак, давайте подумаем, что же требуется для полноценной реализации проекта глобальной семантической сети? Прежде всего, нужна уникальная идентификация ресурсов: семантическая связанность контента будет осмысленной только в случае, если каждый онлайн и оффлайн объект будет иметь уникальный идентификатор для всех своих копий. Очевидно, что этот идентификатор должен быть присвоен объекту либо его автором/законным владельцем, либо неким уполномоченным лицом, либо в итоге достижения консенсуса многих независимых лиц. При этом, конечно же, должна быть обеспечена идентичность копий контента, то есть возможность надежной проверки их нефальсифицированности. И понятно, что ко всему контенту должен быть обеспечен быстрый доступ.

Очевидно, что простейший способ выполнить эти условия - это создать единое централизованное хранилище семантически связанных данных, управляемое одной организацией, которая должна обеспечить как уникальную идентификацию контента, так и его защиту от фальсификации. И такие семантические хранилища создавались (DBpedia, Freebase, OpenCyc), но они не оправдали возлагаемых на них надежд.

Однако в последние годы появилось принципиально новое комплексное решение для осуществления проекта глобальной семантической сети - это технология распределенных реестров (DLT). Исходно технология была реализована в виде блокчейн-сетей, а сейчас уже появились решения на основе направленных ациклических графов.

Итак, что же нам предлагает новая технология в качестве обязательных архитектурных решений? (1) Записи в DLT-сети исходно имеют уникальную идентификацию, (2) подписаны приватными ключами пользователей, которые добавил их в сеть, (3) криптографически защищены от фальсификации и (4) децентрализованы, то есть хранятся на множестве равноправных узлов сети, что предотвращает их утрату и обеспечивает быстрый поиск. При этом в DLT-сети нет единой точки отказа и единого управляющего центра - изменения состояния данных на всех узлах происходят в результате консенсуса, что обеспечивает ее повышенную устойчивость к атакам и злонамеренным действиям пользователей.

Получается, что идея семантической сети опередила свое время. Технология, на базе которой она может быть реализована, технология, решающая проблемы, связанные с неудачной попыткой разворачивания семантической паутины на веб-страницах, была разработана на десять лет позже. И потребовалось еще десять лет, чтобы пришло понимание не только возможности, но и необходимости симбиоза семантики и DLT. Семантическая сеть в лице DLT наконец-то получает надежное, верифицируемое, децентрализованное хранилище данных с уникальной идентификацией контента и пользователей.

А что же выигрывает DLT от симбиоза с семантикой?

Главным преимуществом технологии DLT традиционно считается возможность прямого (минуя посредников) нефальсифицируемого взаимодействия независимых контрагентов. Если речь идет о криптовалюте, то это действительно так: единый алгоритм на всех (всю сеть) и никаких посредников. Но картина в корне меняется, когда рассматриваются сети с так называемыми смарт-контрактами - программными контроллерами, которые именно и призваны обеспечить свободное взаимодействие независимых контрагентов. Ведь программист, создавший этот самый контракт-контроллер, выступает еще одной стороной, еще одним агентом отношений. И мы должны ему доверять, не понимая, что он там написал, не имея возможности самостоятельно проверить код контракта. Программист в данной ситуации выступает именно посредником и пресловутой точкой отказа во взаимодействии бизнес-агентов.

Или давайте подумаем над правомерностью использования термина “децентрализованные приложение” (DApps). Что в этих DApps децентрализованного? Да только то, что они работают в одноранговой децентрализованной DLT-сети, однотипно обрабатывая сетевые транзакции на каждом из ее узлов. По сути, это обычные контракты-контроллеры, написанные одним программистом (или коллективом программистов). И если запустить такое “децентрализованное” приложение на отдельном сервере (на одном узле), то оно прекрасно будет работать, не утратив ни одной из своих функций, проиграв только в защищенности, которую обеспечивает децентрализованная DLT-сеть.

Получается, что технология DLT, решив проблему децентрализации управления и обмена транзакциями на уровне сетевого протокола и хранения данных, не в состоянии обеспечить децентрализацию на уровне взаимодействия контрагентов конкретной деятельности: для соединения контрагентов, для реализации некой бизнес-функции нужно специальное вполне себе централизованно написанное и централизованно работающее приложение. И понятно, что для расширения функционала этого приложения вновь придется обращаться к тому же посреднику-программисту. А об организации взаимодействия (обмена данными) между различными бизнес-функциями, между работающими DLT-приложениями, написанными разными программистами, и подумать страшно…

Вот тут-то и пора вспомнить о семантике, об исходной идее Тима Бернерса-Ли научить компьютеры различать значение (смысл) контента, об универсальном семантическом языке. И если идея описывать на этом языке контент веб-страниц, в конечном счете, оказалась сомнительной, то использование семантического формата для обмена данными между приложениями DLT-сети выглядит не просто хорошим решением, а естественным развитием технологии.

Итак, с одной стороны, DLT-сеть видится, как базовое хранилище для семантически связанных данных, обеспечивающее их уникальную идентификацию, неизменность и доступность, с другой - описание данных на едином для сети семантическом языке решает проблему реализации действительно децентрализованного взаимодействия независимых DLT-приложений. По сути, речь идет о том, что все данные в сети должны храниться в виде единого семантического графа, а сетевые транзакции должны иметь унифицированный семантический формат, понимаемый всеми приложениями. И открывается возможность написания приложений/контрактов на человекочитаемом, семантически определенном языке. Использование же единого семантического формата транзакций предельно важно для развития интернета вещей, то есть для унификации данных от всевозможных датчиков, использования этих данных независимыми приложениями. А единый формат записи всевозможных данных в глобальном графе - просто клондайк для искусственного интеллекта.

Существенно, что семантический подход предлагает естественные, не надуманные решения и других известных проблем DLT-сетей - таких, как ограниченность горизонтального масштабирования и низкая скорость обмена транзакциями. Ведь единый семантический граф, в который вписаны все данные сети, не является однородным - он разбит на множество слабо связанных секторов, соответствующих различным предметным областям, что может послужить основой для естественной кластеризации сети. Пользователи и приложения, работающие с данными одной предметной области, могут быть объединены в относительно самостоятельные подсети-кластеры, узлы которых хранят лишь соответствующие сектора семантического графа. Таким образом решается не только проблема хранения всего объема данных на каждом узле DLT-сети, но и проблема распараллеливания обработки транзакций из разных предметных областей. Более того, семантическая определенность транзакций позволит организовать параллельную их обработку и в пределах одного кластера в случаях, если они семантически не связаны (что однозначно определяется по графу).

Итак, web 3.0 - это семантическая децентрализованная сеть, состоящая из множества предметно ориентированных кластеров, с унифицированным семантическим форматом транзакций и единым графовым хранилищем данных. Web 3.0 - это новый интернет, не только реализующий хранение, обмен и семантический поиск любого контента, но и обеспечивающий действительно децентрализованное взаимодействие независимых контрагентов любой деятельности.

А где же сайты, где веб-страницы, для разметки которых придумывалась семантическая паутина? Их нет. Они просто не нужны. В новой сети каждый пользователь - сам себе сайт, вернее, узел одного или нескольких кластеров глобальной одноранговой сети, а также владелец создаваемого им контента. А браузер - теперь уже семантический браузер - используется не для переходов между миллионами страниц, а для поиска и представления фрагментов единого семантического криптозащищенного графа, распределенно хранящегося на таких же пользовательских узлах.

P.S. Следует отметить, что упомянутые в начале текста инструменты семантического описания данных RDF/OWL оказались не приспособленными для моделирования сложных динамических, развивающихся систем, и для реализации единого семантического пространстве web 3.0 необходимые новые решения.

77
33 комментария

Комментарий недоступен

3
Ответить

==насколько торрент это веб3,0?
Торрент обеспечивает только децентрализованные обмен и хранение данных. До web 3.0 надо добавить семантический поиск и децентрализованные приложения для всякой деятельности (от общения до бизнеса).

1
Ответить

ни насколько пока (хотя уже есть BTT), но фундаментально - корни одни и те же и в будущем - будет: недалёком, я бы сказал будущем.

1
Ответить

Это статью бы моему препода почитать, который ярый фанатик семантического веба. Мб перестал бы преподавать ненужное и не отчислили бы с магистратуры)

2
Ответить

а как зовут и где преподаёт? давайте свяжемся :)

1
Ответить

Пожалуй, согласиться можно только с p.s. в статье. DTL никак не решает проблему семантики. Потому что она не в способе хранения в сети, и не в однозначности идентификации. В семантике однозначности вообще нет. И все динамично.
И первая проблема что все даже один язык понимают по разному.

1
Ответить

Пожалуй, согласиться можно только с p.s. в статье. DTL никак не решает проблему семантики.

Это неудивительно, т.к. в статье нет ни малейшей попытки анализа того, почему провалился Semantic Web.

1
Ответить