➡️Парсинг данных с перплексити. Заход№ 2
Разобрался в парсинге данных с помощью перплексити!
В прошлом эксперименте не получал корректные данные с одной конкретной страницы.
1Оказалось, что надо добавить параметр "search_context_size" = "high", чтобы использовался максимум контекста. У меня видимо только часть инфы попадала на обработку, поэтому данные придумывались.
2Модель можно поставить помощнее - "sonar-pro", но и без нее в принципе работает.
Благодарю за наводку Дмитрия @korn_dmitriy - он тоже проводил этот эксперимент на своей стороне.
Вообще с табличными данными не очень качественно должно работать, особенно для строк, которые далеко от заголовков таблицы, и в тех случаях где много столбцов. Думаю, подобный парсинг больше дня неструктурированных данных
Еще мне накидали следующие альтернативы получения данных:
➖jina.ai - см пример выдачи . Что не понравилось - собирает текст со всей страницы, включая навигацию и ссылки на фото. По сути просто удаляет хтмл код. Слишком много мусора, который надо как-то тоже вырезать, а то контекст будет забит спамом.
➖firecrawl.dev - аналогично предыдущему делает, см пример (если ошибаюсь - поправьте плз).
В firecrawl есть интересный режим Crawl - сразу подгружаются все страницы из пагинации (от 2ой до 10й). Правда в пагинации при нажатии на стрелочку появляется 11ая страница и далее, но для экспресс сбора инфы - неплохо!
Также есть режим парсинга xls, doc, pdf.
Вывод: у перплексити скрапинг (через search) более гуманный для психики, он берет только основной контент, вырезая лишнее.
Вывод2: в принципе, такой способ достойная альтернатива для тех, кто не хочет возиться на питоне с селениумом или bs4.
Подписывайтесь на Telegram Korenev AI - GPT в тапочках🩴.