Вы случайно не PHP Middle?
NTA
118

Введение в парсинг для тех, кто в него уже введен

В закладки

Продолжаем делиться простыми лайфхаками работы с данными.Эти советы будут интересны тем, кто начинает заниматься парсингом. Они помогут вам сократить время разработки и не сыскать дурную славу в роли программиста.

Своим опытом делится наш коллега, работающий над ИТ-проектами:

Решил и я вкинуть свои мысли по поводу получения данных со сторонних ресурсов и дать непрошенные советы, основанные на личных наблюдениях. Не буду использовать какой-либо код, для понимания он не нужен, от слова «совсем», нужно только что-нибудь знать про парсинг, хотя бы отдаленно.

  • Наверное, первое, что хочется сказать-пишите на языке, который знаете!

Умеете писать и предпочитаете это делать на C# — прекрасно, пишите на нем. Больше нравится Python — дерзайте, но не нужно писать на незнакомом языке. Вы увеличите время разработки, может даже получится что-то сделать, а может придется переписывать на знакомый вам язык (или кто-то будет это делать за вас).

  • Не используйте selenium!

Может этот совет стоило разместить в первую очередь, но начало-это выбор языка, так что пусть это будет на втором месте. Если вы не тестируете сайт и есть возможность отказаться от использования selenium, то откажитесь. Он нам не нужен! Что он может нам дать?! Ну… он просто поднимает браузер, а значит увеличивает потребление ресурсов компьютера, и самое «приятное», что с ним скорее всего, будет утечка памяти — и значит больше дыр, которые надо будет закрывать, дольше времени на прогрузку страницы. Используя его, мы увеличиваем время своего труда и время отработки программы.

  • Получая данные, удаляйте спецсимвол!

Табуляции, каретки, переносы и другое — несмотря на то, что такие значения встречаются не часто, нужно проверять.

  • Используйте API

API-наш друг. Сайты не очень быстро рассказывают нам о нем, но он есть. Один из способов его найти — открыть инструменты разработчика (F12), перейти на вкладку «сеть» и посмотреть запросы браузера и ответы.

  • Изучите код страницы

Порой на странице есть больше, чем нам показывают визуально. Такое можно найти в json или в полях script.

Применение этих простых советов позволит:

  • Получить чистые данные,
  • Получить больше данных,
  • Получить выигрыш по времени в долгой перспективе.
Лайфхаки IT, проверенные AI-решения для стандартных задач
{ "author_name": "NTA", "author_type": "editor", "tags": [], "comments": 0, "likes": 0, "favorites": 1, "is_advertisement": false, "subsite_label": "newtechaudit", "id": 137256, "is_wide": false, "is_ugc": false, "date": "Thu, 25 Jun 2020 17:10:00 +0300", "is_special": false }
Кейсы роста
Инструкция по Growth-процессу
Привет, читатель! Меня зовут Артём Сайгин, я веду проект «Я Маркетолог», в котором рассказываю о digital-маркетинге и…
Объявление на vc.ru
0
Комментариев нет
Популярные
По порядку

Комментарии