{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

Введение в парсинг для тех, кто в него уже введен

Продолжаем делиться простыми лайфхаками работы с данными.Эти советы будут интересны тем, кто начинает заниматься парсингом. Они помогут вам сократить время разработки и не сыскать дурную славу в роли программиста.

Своим опытом делится наш коллега, работающий над ИТ-проектами:

Решил и я вкинуть свои мысли по поводу получения данных со сторонних ресурсов и дать непрошенные советы, основанные на личных наблюдениях. Не буду использовать какой-либо код, для понимания он не нужен, от слова «совсем», нужно только что-нибудь знать про парсинг, хотя бы отдаленно.

  • Наверное, первое, что хочется сказать-пишите на языке, который знаете!

Умеете писать и предпочитаете это делать на C# — прекрасно, пишите на нем. Больше нравится Python — дерзайте, но не нужно писать на незнакомом языке. Вы увеличите время разработки, может даже получится что-то сделать, а может придется переписывать на знакомый вам язык (или кто-то будет это делать за вас).

  • Не используйте selenium!

Может этот совет стоило разместить в первую очередь, но начало-это выбор языка, так что пусть это будет на втором месте. Если вы не тестируете сайт и есть возможность отказаться от использования selenium, то откажитесь. Он нам не нужен! Что он может нам дать?! Ну… он просто поднимает браузер, а значит увеличивает потребление ресурсов компьютера, и самое «приятное», что с ним скорее всего, будет утечка памяти — и значит больше дыр, которые надо будет закрывать, дольше времени на прогрузку страницы. Используя его, мы увеличиваем время своего труда и время отработки программы.

  • Получая данные, удаляйте спецсимвол!

Табуляции, каретки, переносы и другое — несмотря на то, что такие значения встречаются не часто, нужно проверять.

  • Используйте API

API-наш друг. Сайты не очень быстро рассказывают нам о нем, но он есть. Один из способов его найти — открыть инструменты разработчика (F12), перейти на вкладку «сеть» и посмотреть запросы браузера и ответы.

  • Изучите код страницы

Порой на странице есть больше, чем нам показывают визуально. Такое можно найти в json или в полях script.

Применение этих простых советов позволит:

  • Получить чистые данные,
  • Получить больше данных,
  • Получить выигрыш по времени в долгой перспективе.
0
Комментарии
-3 комментариев
Раскрывать всегда