Парсинг сайтов через API Perplexity: опыт и выводы
➡Perplexity как парсер сайтов
Решил потестировать новый способ парсинга сайтов без заморочей: через API перплексити.
Задача: собрать информацию с конкретной страницы.
Получил ответ от перплексити (в скобках указываю факт с сайта):
- СберБанк — 62 363 157 000 тыс. рублей (62 363 157 000✅)
- Банк ВТБ — 33 313 085 000 тыс. рублей (33 313 085 000✅)
- Газпромбанк — 18 056 152 000 тыс. рублей (17 384 554 000❌)
Запустил скрипт пару раз - у третьего банка постоянно цифры с потолка берутся.
Вывод: табличные данные с сайтов таким способом парсить рано. Придется по старинке👨 💻
Обычный неструктурированный текст в принципе можно собирать по-новому.
Подробности
Промпт:
выведи топ 3 банка по размеру активов, и так же размер активов в тысячах рублей на октябсь. ищи тут https://bankiros.ru/bank/rating/assets . в ответе укажи источник
Так же в фильтрах указал "search_domain_filter": ["https://bankiros.ru/bank/rating/assets"],
чтобы переплексити только на конкретную страницу бегал
Полный код
client = Perplexity(api_key=PERPLEXITY)
completion = client.chat.completions.create(
messages=[
{
"role": "user",
"content": "сообщи топ 3 банка по размеру активов, и так же размер активов в тысячах рублей. ищи тут https://bankiros.ru/bank/rating/assets . в ответе укажи источник",
}
],
model="sonar",
web_search_options={
#"search_recency_filter": "week", # Focus on recent results
"search_domain_filter": ["https://bankiros.ru/bank/rating/assets"], # Trusted sources
"max_search_results": 10
}
)
print(f"Response: {completion.choices[0].message.content}")
Для поиграться перплексити дают велкам бонус в 5 долл.
Подписывайтесь на Telegram Korenev AI - GPT в тапочках🩴.