Пример использования программы для парсинга e-mail адресов с сайтов, созданный ИИ

Пример использования программы для парсинга e-mail адресов с сайтов, созданный ИИ

Если код оказался полезным и вы им воспользовались – не скупитесь на лайки или дизлайки!

Сегодня хотим поделиться с вами готовой программой для парсинга e-mail адресов с сайтов, которая была создана всего за 30 минут с помощью искусственного интеллекта. В разработке программы помогло решение от Rokitok, демонстрируя, как современные ИИ-инструменты позволяют быстро решать задачи, на которые раньше уходили дни работы или требовались значительные финансовые вложения.

Что делает программа?

Этот Python-скрипт позволяет автоматически собирать e-mail адреса с указанных веб-страниц. В основе программы используются библиотеки requests и BeautifulSoup, а также регулярные выражения для поиска e-mail в HTML-коде страниц. Всё просто: указываете URL, запускаете скрипт, и он извлекает все e-mail адреса с этого сайта.

Основные шаги:1.

Указание сайта или списка сайтов
Вводите URL сайта или нескольких сайтов для сбора e-mail.

2. Отправка запросов и получение страницы Программа отправляет запрос на сервер и загружает HTML-код страницы.

3. Поиск e-mail адресов Вся информация фильтруется с помощью регулярных выражений, находящих шаблоны e-mail адресов.

4. Сохранение результата Все собранные e-mail адреса выводятся на экран или сохраняются в файл для дальнейшего использования.

Почему это важно?

Благодаря искусственному интеллекту, написание таких программ становится быстрым, простым и доступным даже для людей без глубоких знаний в программировании. Раньше для создания таких парсеров требовалось нанимать программистов или приобретать дорогостоящие решения. Сегодня такие задачи решаются практически мгновенно и бесплатно с помощью инструментов врод

Пример использования программы

Ниже представлено изображение с примером кода программы, а также демонстрационное видео работы этого скрипта.

Код программы:

import requests from bs4 import BeautifulSoup import re from urllib.parse import urlparse, urljoin # Функция для проверки валидности URL def is_valid_url(url): parsed = urlparse(url) return bool(parsed.scheme) and bool(parsed.netloc) # Функция для получения HTML-кода страницы с тайм-аутом и заголовками def get_html(url): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36" } try: response = requests.get(url, headers=headers, timeout=10) response.raise_for_status() return response.text except requests.exceptions.RequestException as e: print(f"Ошибка при получении страницы {url}: {e}") return None # Функция для поиска email-адресов на странице def find_emails(html): email_regex = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}' emails = re.findall(email_regex, html) return set(emails) # Используем set для удаления дубликатов # Функция для извлечения всех ссылок со страницы def get_links(url, html): soup = BeautifulSoup(html, 'html.parser') links = set() for a_tag in soup.find_all("a", href=True): link = urljoin(url, a_tag['href']) if is_valid_url(link) and link.startswith(url): links.add(link) return links # Основная функция для рекурсивного парсинга всех страниц сайта def crawl_and_parse_emails(url, visited=set(), found_emails=set(), email_counter=1, depth=0, max_depth=5): # Проверяем, посещали ли мы уже этот URL или если достигнута максимальная глубина if url in visited or depth > max_depth: return visited.add(url) # Получаем HTML страницы html = get_html(url) if html: # Ищем email-адреса на странице emails = find_emails(html) for email in emails: if email not in found_emails: # Если email еще не был найден print(f"{email_counter}. {email}") # Выводим порядковый номер и email found_emails.add(email) # Добавляем новый email в набор email_counter += 1 # Извлекаем ссылки и обходим их links = get_links(url, html) for link in links: try: crawl_and_parse_emails(link, visited, found_emails, email_counter, depth + 1, max_depth) # Рекурсивно обходим каждую ссылку except Exception as e: print(f"Ошибка при парсинге ссылки {link}: {e}") # Пример использования программы if __name__ == "__main__": start_url = input("Введите URL сайта для поиска email: ") if is_valid_url(start_url): found_emails = set() # Набор для хранения всех найденных email crawl_and_parse_emails(start_url, found_emails=found_emails) # По завершении парсинга выводим итоговый результат, если email были найдены if not found_emails: print("Email-адреса не найдены.") else: print("Некорректный URL.")

Видео работы программы:

Итог

Создание подобных инструментов с помощью ИИ не только ускоряет процесс разработки, но и делает такие решения доступными для всех. Это отличная возможность сэкономить время и деньги, применяя современные технологии.

Начать дискуссию