Григорий Бакунов aka Бобук как то в Радио-Т говорил что исходники поисковой системы без большого массива данных ничего не дадут. Чтобы понимать как алгоритм работает ему нужно скормить кучу данных и только потом получишь результат.
Да и даже если продадут исходники, там столько строк кода и наворотов что замучаешься понимать как все это работает.
Из яндекса взять все сайты? Ничего что парсинг такого объема данных не получится сделать. Тупо забанят.
А вот так сходу взять и проиндексировать весь русскоязычный интернет нельзя. Нужно много времени и много серверов.
Вон когда поисковик спутник запускал за несколько месяцев ДО ко мне на сервер периодически забегали боты с ростелекомовских IP. Тупо берут и 5-8 поток начинают с каждого сайта качать страницы. А у меня сервер не резиновый и все это начинает тормозить. Пришлось банить таких вот любителей "сделать копию всех сайтов в интернете"
Комментарий недоступен
Григорий Бакунов aka Бобук как то в Радио-Т говорил что исходники поисковой системы без большого массива данных ничего не дадут. Чтобы понимать как алгоритм работает ему нужно скормить кучу данных и только потом получишь результат.
Да и даже если продадут исходники, там столько строк кода и наворотов что замучаешься понимать как все это работает.
А в чем проблема зарядить сайты из ЯКа туды?
Из яндекса взять все сайты? Ничего что парсинг такого объема данных не получится сделать. Тупо забанят.
А вот так сходу взять и проиндексировать весь русскоязычный интернет нельзя. Нужно много времени и много серверов.
Вон когда поисковик спутник запускал за несколько месяцев ДО ко мне на сервер периодически забегали боты с ростелекомовских IP. Тупо берут и 5-8 поток начинают с каждого сайта качать страницы. А у меня сервер не резиновый и все это начинает тормозить. Пришлось банить таких вот любителей "сделать копию всех сайтов в интернете"