Практическое руководство по поиску в сети и интеллектуальному анализу текста, как для начинающих, так и для опытных пользователей R. Книга представляет фундаментальные концепции архитектуры Сети и баз данных, рассказывает про HTTP, HTML, XML, JSON, SQL. Предоставляет основные методы для получения веб-документов и наборов данных (XPath и регулярные выражения). Представляет большой набор упражнений, которые помогут читателю понять каждую технику. В книге изучается как обучаемые, так и и необучаемые методы, очистка данных и управление текстом, приводятся тематические исследования, а также примеры для каждого из представленных методов.
Бесполезная и вредная подборка. Тупо скопировали список всех книг, которые смогли найти в каталоге. Новичка они только отпугнут. Какой-то Data Science, R. Зачем это всё? Давай те уж и книги по базам данных добавим, ведь где-то это надо спарсенное хранить.
PhantomJS - серьёзно? Автор его уже не поддерживает.
Статья ради статьи.
Вообще тут достаточно двух функций из любого языка.
Функция забрать контент по ссылке и распарсить регуляркой.
https://www.php.net/manual/ru/function.file-get-contents.php
https://www.php.net/manual/ru/function.preg-match-all.php
Всё, изи.
Про CSRF, куки, токены, прокси, капчи, многопоточный парсинг, парсинг SPA и далее по списку не слышали или хотите сказать что парсить достаточно малоизвестные сайты, написанные на коленке?
@Максим Кульгин сможет ли Ваша компания парсить сайт sigma.ru? А то ходят слухи, что это невозможно и очень сложно.
Кстати, тоже интересовал этот вопрос
Спасибо!