Думай как Google: как мы начали шпионить за поисковым ботом

Сергей Безбородов CTO JetOctopus рассказывает о том, как в попытке вырастить трафик на сайте миллионнике, он создал аналитический сервис и построил на этом бизнес.

Сергей Безбородов, CTO JetOctopus <br />
2828

То есть вы хотите сказать, что самостоятельно разработали краулер, аналогичный поведению поисковых роботов Google и Яндекс? Извините, но что-то я сомневаюсь в его эффективной работоспособности

1

В чем сложность сделать краулер сайта?

1

принципы краулинга не сложны - идем на главную страницу по ссылкам с ней, потом по ссылкам с тех страниц и так далее, пока не закончатся все ссылки по которым мы не ходили на сайте
разница в конечной задачи краула, у посковиков - обрабатывать и находить информацию из результатов краула, а у нас только технические моменты/характеристики страниц

конкретно на вопрос что сами разработали краулер - да, мы не юзали никаких сторонних библиотек, инструментов и т.п., голый go код, многопоточность - и тянем без проблем 100-200 млн страниц на краул