➡️Парсинг данных с перплексити. Заход№ 2

Разобрался в парсинге данных с помощью перплексити!

В прошлом эксперименте не получал корректные данные с одной конкретной страницы.

1Оказалось, что надо добавить параметр "search_context_size" = "high", чтобы использовался максимум контекста. У меня видимо только часть инфы попадала на обработку, поэтому данные придумывались.

2Модель можно поставить помощнее - "sonar-pro", но и без нее в принципе работает.

Благодарю за наводку Дмитрия @korn_dmitriy - он тоже проводил этот эксперимент на своей стороне.

Вообще с табличными данными не очень качественно должно работать, особенно для строк, которые далеко от заголовков таблицы, и в тех случаях где много столбцов. Думаю, подобный парсинг больше дня неструктурированных данных

Еще мне накидали следующие альтернативы получения данных:

jina.ai - см пример выдачи . Что не понравилось - собирает текст со всей страницы, включая навигацию и ссылки на фото. По сути просто удаляет хтмл код. Слишком много мусора, который надо как-то тоже вырезать, а то контекст будет забит спамом.

firecrawl.dev - аналогично предыдущему делает, см пример (если ошибаюсь - поправьте плз).

В firecrawl есть интересный режим Crawl - сразу подгружаются все страницы из пагинации (от 2ой до 10й). Правда в пагинации при нажатии на стрелочку появляется 11ая страница и далее, но для экспресс сбора инфы - неплохо!

Также есть режим парсинга xls, doc, pdf.

Вывод: у перплексити скрапинг (через search) более гуманный для психики, он берет только основной контент, вырезая лишнее.

Вывод2: в принципе, такой способ достойная альтернатива для тех, кто не хочет возиться на питоне с селениумом или bs4.

Подписывайтесь на Telegram Korenev AI - GPT в тапочках🩴.

Начать дискуссию