Лого vc.ru

Руководитель «Яндекс.Браузера» запустил поиск по архивам «Живого Журнала» на основе данных «Яндекса»

Руководитель «Яндекс.Браузера» запустил поиск по архивам «Живого Журнала» на основе данных «Яндекса»

Руководитель «Яндекс.Браузера» Роман Иванов запустил сервис поиска по архивам «Живого Журнала», которые сохранились в «Поиске по блогам» «Яндекса». В разговоре с vc.ru он сообщил, что это его личный некоммерческий проект, не связанный с поисковой системой.

Проект предназначен для исследователей, которым будут интересны «культурные пласты нулевых годов», а также пользователей ЖЖ, желающих найти информацию тех лет, говорит Иванов. В сервисе собраны данные с 2000 года по осень 2015 года — 340 млн заметок и 1 млрд комментариев, всего более терабайта информации.

Я считаю, что в ЖЖ случилась или как минимум нашла своё отражение почти вся русскоязычная культура нулевых годов. Культурное значение этого архива трудно переоценить. Когда «Яндекс» закрыл поиск по архивам, я очень огорчился, поскольку убеждён, что этот архив должен быть сохранён для человечества. Ну и попросил у «Яндекса» архивы. А «Яндекс» внезапно согласился и дал их. Последние полгода я с несколькими другими волонтёрами программировал этот самый поиск и вроде бы довёл его до вменяемого состояния.

— Роман Иванов

Разработкой сервиса занимался сам Иванов при поддержке волонтёров — в частности, дизайн сервиса создавал основатель закрытого сейчас сервиса Eviterra Николай Заярный. Поисковик расположен на хостинге Servers.ru, который предложил безвозмездную помощь Иванову.

Поскольку новые записи не индексируются, то аудитория, на которую я рассчитываю — исследователи. Как в прямом смысле слова исследователи культурных пластов нулевых годов, так и просто настоящие или бывшие пользователи ЖЖ, которые хотят найти что-то, что было написано в те годы. Исходя из этого, например, я не стал ограничивать максимальное время выполнения поискового запроса — исследователь может подождать выполнения сложного запроса и минуту, и две. При этом, конечно, простые запросы выполняются быстро, а если сервис обнаруживает, что запросов сейчас задаётся много, он включает управляемую деградацию, в том числе, ограничивает таймаут запроса.

— Роман Иванов

Сейчас создатель сервиса планирует переиндексировать архив и добавить поиск по точным словоформам, а также дать возможность искать комментарий одного пользователя в журнале другого.

Чтобы предотвратить претензии со стороны правоохранительных органов, Иванов решил не показывать сохранённые копии уже удалённых записей пользователей с российских IP-адресов. «Так сказать, заранее ограничил русских детей от возможной пропаганды суицида, гомосексуализма, наркотиков, шоплифтинга, неуплаты штрафов и перехода улицы в неположенном месте», — сказал он. Администрация ЖЖ, к которой обратился Иванов с предложением сотрудничества, не проявила интереса к проекту.

Представитель «Яндекса» Ася Мелкумова в разговоре с vc.ru не исключила того, что компания может дать архивы «Поиска по блогам» и другим пользователям, которые заинтересуются ими для своих сервисов.

«Яндекс» объявил о закрытии рейтинга блогеров в «Поиске по блогам» в апреле 2014 года — это произошло из-за инициативы о приравнивании блогов с посещаемостью свыше трёх тысяч пользователей в сутки к СМИ. C сентября 2015 года сервис ищет только по материалам, которые младше одного месяца. В компании объяснили это тем, что «подавляющее большинство наших пользователей ищут свежие записи, а к архивам обращаются достаточно редко».

Присылайте новости на news@vc.ru

Теги
Статьи по теме
Основатель Eviterra Николай Заярный попал в базу розыска Интерпола
Прямой эфир
Узнавайте первым
о важных новостях
Мы будем присылать вам только срочные уведомления в браузере
Mail.Ru Group получила полный контроль над «ВКонтакте»
Хочу знать!
Не нужно