Web3 scraping: что это и зачем?

Многие из вас наверняка знают или хотя бы что-то слышали о веб-скрейпинге (от англ. scraping). Даже если нет, то вы точно им занимались, ведь копипаст это, по сути, тоже его разновидность.

Технически же это процесс сбора данных с веб-страниц. Не буду вдаваться в детали, для желающих есть статья в Википедии, а о конкретных решениях можно почитать на Хабре. Сразу оговорюсь, что задача этой статьи не в описании технических деталей работы разных ботов, а в общем знакомстве с самой технологией и возможностями ее применения в веб3.

Короткая история и пару примеров

Скрейпинг появился почти одновременно с World Wide Web, когда в начале 90-х были созданы первые веб-боты, сначала для анализа веса страниц, а позже и для их индексации.

В начале 2000-х были разработаны первые Web API, с помощью которых можно было получить доступ к определенным публичным данным. Сегодня такие решения есть у десятков тысяч продуктов, если не больше. Многие Интернет-ресурсы и базы данных сами предлагают возможность парсинга своих данных, будь-то новостные ресурсы, цифровые архивы или государственные статистические данные.

Но даже если такой возможности нет, можно создать бота, которые соберет публичные данные в нужном вам источнике и без доступного специально для этого интерфейса. Зачем?

Боты для скрейпинга применяются много где. Например, у вас есть свой интернет-магазин автотоваров. Вы, как его владелец, можете быть заинтересованы в том, чтобы отслеживать цены у конкурентов. Это можно сделать вручную, каждый день проверяя их динамику. А можно с помощью парсера, который на выходе предоставит данные в табличке. С помощью него же ваш контент-менеджер может получать описания позиций у конкурентов, в том числе SEO тексты. Насколько это этично – вопрос, в некоторых странах это регулируется законодательно, но сами инструменты есть и развиваются.

Другой пример. Допустим, вы бренд-менеджер или маркетолог. Одной из ваших задач может быть отслеживание упоминаний бренда. Поверхностно это позволяют делать такие инструменты как Гугл Трендс, более продвинуто – Youscan или Mention. Обычно они стоят немалых денег и выдают вам результаты в виде отчета, допустим, раз в день. Такие сервисы используют схожую технологию, хоть и не преследуют целью именно харвестинг (от англ. harvesting – сбор урожая), тоесть сбор данных, их скачивание, а просто трекают упоминания и представляют отчет со ссылками на них.

Для формирования более продвинутых отчетов применяют машинное обучение и искусственный интеллект. Благодаря этому, отчет с упоминаниями приобретает графы, где анализируется тональность этих самых упоминаний. Тоесть вы сразу видите, хорошо или плохо высказался о вашем бренде кто-то в Интернете. Но обработка естественного языка только развивается как технология, поэтому верить таким оценкам на 100% нельзя. Чаще всего они трекают “позитивные” и “негативные” слова, но не понимают, к примеру, иронию. И если охарактеризовать сервис как “замечательный” и поставить оценку 2 из 10, такой робот сломается. Шутка. Но здесь нужна будет более тонкая настройка, парсить в отрыве от других данных такие отзывы не будет иметь смысла.

Web3-скрейпинг

Вы наверняка слышали об идее нового веба – веб3. Если нет, здесь можно детально почитать о том, что это такое. Если очень коротко и просто, это новый виток в развитии всемирной паутины. Он будет основан на принципах децентрализации и приватности, благодаря блокчейну и токенизированной экономике.

Но давайте пока о другом. 2020 год. Карантин. В соцсетях идут войны между инфекционистами, вирусологами, всеми теми, кто за и против вакцинации. Каждая сторона приводит свои аргументы, ссылаясь на свои источники. Что это за источники? Откуда изначально появилась та информация, которая позже стала вирусной?

Вы уже наверное догадались, что с поиском ответов на эти вопросы может помочь скрейпинг. Но есть одна проблема. Из-за большого количества данных в сети, анализировать их невероятно сложно. Получить все данные в режиме реального времени – невозможно. Это далеко не то же самое, что спарсить данные с одного сайта.

И вот здесь родилась идея, как это решить. Некая компания ExordeLabs из Франции, состоящая из программистов и аналитиков данных, придумала использовать для скрейпинга данных блокчейн и идеи упомянутого выше web3. Благодаря децентрализации сети в ней одновременно валидаторами данных будут десятки тысяч узлов, а не отдельно запущенные боты.

Но что заставит их работать вместе и выполнять задачи поиска данных? Здесь мы вспомним о еще одном принципе веб3 – токенизированной экономике. За свою работу валидаторы будут получать токены – криптовалюту EXD. От атак такой протокол будет защищен механизмом консенсуса, а управляться сам протокол будет децентрализованной автономной организацией, где держатели токена будут иметь право голоса.

Также в силу того, что это блокчейн с прозрачной историей транзакций в сети, протокол не сможет скрывать, условно, какие-то результаты из выдачи, а значит не будет подвержен цензуре.

Благодаря всему этому, разрабы пытаются построить сбор данных в реальном времени! Все те же описанные кейсы, но с практически мгновенными результатами. Представьте, что когда только UST начал терять пег к доллару, у вас под рукой был бы инструмент, способный собрать всю публичную инфу на этот счет на любом нужном вам языке. Может там были подсказки к шорту? Выходу из позиций?

Близкий пример. Вы владеете NFT из какой-то коллекции и начинаете видеть FUD вокруг нее. Что делать – продать или оставить? Да, финальное решение в любом случае за человеком, но сам процесс сбора данных упрощается в разы.

В качестве вывода

Зачем весь этот лонгрид? Заинтересованным в скрейпинге данных, как и тем, кто инвестирует в крипту или просто следит за развитием веб3, это может пригодиться. Во-первых, из публичных продуктов этот единственный на данный момент, кто декларирует такую цель. Более того, не просто декларирует, но уже проводит тестирование своего софта, о чем можно узнать детальнее и присоединиться к тесту в Дискорде проекта.

Во-вторых, проект отмечен вниманием самого великого Коинлиста, что добавляет доверия, как минимум, потому, что там аналитики за что-то получают деньги и не забирают к себе в батч всех подряд. В общем, может выйти так, что продукт выстрелит. Зимой обещают TGE, пока идет тестнет можно в нем участвовать с надеждой на возможные награды. Времени почти не требует.

Больше о проекте можно узнать здесь:

11
Начать дискуссию