Парсинг сайтов через API Perplexity: опыт и выводы

Perplexity как парсер сайтов

Решил потестировать новый способ парсинга сайтов без заморочей: через API перплексити.

Задача: собрать информацию с конкретной страницы.

Получил ответ от перплексити (в скобках указываю факт с сайта):

  1. СберБанк — 62 363 157 000 тыс. рублей (62 363 157 000✅)
  2. Банк ВТБ — 33 313 085 000 тыс. рублей (33 313 085 000✅)
  3. Газпромбанк — 18 056 152 000 тыс. рублей (17 384 554 000❌)

Запустил скрипт пару раз - у третьего банка постоянно цифры с потолка берутся.

Вывод: табличные данные с сайтов таким способом парсить рано. Придется по старинке👨 💻

Обычный неструктурированный текст в принципе можно собирать по-новому.

Подробности

Промпт:

выведи топ 3 банка по размеру активов, и так же размер активов в тысячах рублей на октябсь. ищи тут https://bankiros.ru/bank/rating/assets . в ответе укажи источник

Так же в фильтрах указал "search_domain_filter": ["https://bankiros.ru/bank/rating/assets"],

чтобы переплексити только на конкретную страницу бегал

Полный код

client = Perplexity(api_key=PERPLEXITY)

completion = client.chat.completions.create(

messages=[

{

"role": "user",

"content": "сообщи топ 3 банка по размеру активов, и так же размер активов в тысячах рублей. ищи тут https://bankiros.ru/bank/rating/assets . в ответе укажи источник",

}

],

model="sonar",

web_search_options={

#"search_recency_filter": "week", # Focus on recent results

"search_domain_filter": ["https://bankiros.ru/bank/rating/assets"], # Trusted sources

"max_search_results": 10

}

)

print(f"Response: {completion.choices[0].message.content}")

Для поиграться перплексити дают велкам бонус в 5 долл.

Подписывайтесь на Telegram Korenev AI - GPT в тапочках🩴.

Начать дискуссию