Вчера откопал свой старый парсер для извлечения текста из телеграм-каналов. Изначально делал его, чтобы собирать все публикации в JSONL и отправлять в RAG для удобного поиска постов по контексту.

А откопал я его вот по какому поводу. Как-то между делом обмолвился своему ИИ-агенту 🦞 Claw, что «наконец-то мой возраст и размер ноги одинаковый» - он сразу спросил, какой у меня размер ноги и возраст, ему эти данные нужно добавить в USER.MD.

Нет, говорю, малыш, эту информацию тебе нужно найти самостоятельно. Запустив десяток субагентов, Claw смог только определить рамку - 39–45. А дальше вспомнил про мой второй канал и начал его постранично изучать.

Я сжалился над бедолагой - дал ему код старого парсера. Тот его допилил и за три минуты высосал весь канал на 2200 постов, засунул их в TF-IDF (типа векторная база, но не совсем) и за минуту выдал мне — 42.

«А неплохой парсер», — подумал я и попросил Claw собирать не только текст, но и метаданные (количество реакций, показов, дату и время публикации). А уже с этими данными можно немного поэкспериментировать, например, создать аналитические графики по телеграм-каналу.

В общем, перенес проект в Claude Code и всю ночь пилил тг-бота, задача которого - парсить каналы и выгружать два файла: JSONL с постами и PDF с аналитикой. Так что если интересно, ставьте - 🔥, я как доделаю выложу.

Подписывайтесь на Telegram Силиконовый Мешок.

Начать дискуссию