Введение в парсинг для тех, кто в него уже введен
Продолжаем делиться простыми лайфхаками работы с данными.Эти советы будут интересны тем, кто начинает заниматься парсингом. Они помогут вам сократить время разработки и не сыскать дурную славу в роли программиста.
Своим опытом делится наш коллега, работающий над ИТ-проектами:
Решил и я вкинуть свои мысли по поводу получения данных со сторонних ресурсов и дать непрошенные советы, основанные на личных наблюдениях. Не буду использовать какой-либо код, для понимания он не нужен, от слова «совсем», нужно только что-нибудь знать про парсинг, хотя бы отдаленно.
- Наверное, первое, что хочется сказать-пишите на языке, который знаете!
Умеете писать и предпочитаете это делать на C# — прекрасно, пишите на нем. Больше нравится Python — дерзайте, но не нужно писать на незнакомом языке. Вы увеличите время разработки, может даже получится что-то сделать, а может придется переписывать на знакомый вам язык (или кто-то будет это делать за вас).
- Не используйте selenium!
Может этот совет стоило разместить в первую очередь, но начало-это выбор языка, так что пусть это будет на втором месте. Если вы не тестируете сайт и есть возможность отказаться от использования selenium, то откажитесь. Он нам не нужен! Что он может нам дать?! Ну… он просто поднимает браузер, а значит увеличивает потребление ресурсов компьютера, и самое «приятное», что с ним скорее всего, будет утечка памяти — и значит больше дыр, которые надо будет закрывать, дольше времени на прогрузку страницы. Используя его, мы увеличиваем время своего труда и время отработки программы.
- Получая данные, удаляйте спецсимвол!
Табуляции, каретки, переносы и другое — несмотря на то, что такие значения встречаются не часто, нужно проверять.
- Используйте API
API-наш друг. Сайты не очень быстро рассказывают нам о нем, но он есть. Один из способов его найти — открыть инструменты разработчика (F12), перейти на вкладку «сеть» и посмотреть запросы браузера и ответы.
- Изучите код страницы
Порой на странице есть больше, чем нам показывают визуально. Такое можно найти в json или в полях script.
Применение этих простых советов позволит:
- Получить чистые данные,
- Получить больше данных,
- Получить выигрыш по времени в долгой перспективе.