Screaming Frog SEO Spider — это мощный инструмент для SEO-специалистов, который позволяет детально анализировать веб-сайты, выявлять ошибки, оптимизировать страницы и улучшать общие показатели сайта в поисковых системах.Этот инструмент предоставляет множество функций, начиная от проверки корректности мета-тегов и заканчивая анализом микроразметки, что делает его незаменимым помощником для глубокого анализа сайтов любого масштаба.В этом руководстве мы разберем ключевые настройки и функции Screaming Frog SEO Spider, которые помогут вам эффективно анализировать и оптимизировать ваш веб-ресурс.Содержание:Настройка программыСпособы сканированияАнализ дублированного контентаСтраницы с малым количеством контентаПоиск пустых листингов на сайтеПроверка наличия счетчиков на страницахАнализ Title, Description и заголовков (H1, H2)Анализ ответов сервераИнтеграция с внешними APIПроверка размеров и доступности изображенийПроверка корректности микроразметкиПрограмма доступна в бесплатной версии (с лимитом в 500 URL и ограниченным функционалом) и платной версии (без ограничений по количеству URL и полным доступом ко всем функциям).Ссыка на скачивание:https://www.screamingfrog.co.uk/seo-spider/Для пользователей из Беларуси и России доступ к скачиванию может быть заблокирован, поэтому рекомендуется использовать VPN.На момент написания статьи актуальной версией программы была v.20.2. Интерфейс может измениться, но ключевые настройки останутся актуальными.Настройка программыНастройка использования оперативной памятиПереходим в File → Settings → Memory AllocationРекомендуется 8GB для больших проектов или половина от вашей текущей оперативной памяти.Настройка места хранения данныхПереходим в File → Settings → Storage ModeПо умолчанию стоит Memory Storage (оперативная память).Рекомендуется переключится на Database Storage (жесткий диск). Очень важно, чтобы этот диск был SSD, иначе сканирование будет очень долгим.Установка проксиПереходим в File → Settings → ProxyЕсли ваш IP заблокировал тот сайт, который вы хотите сканировать, можно настроить прокси для обхода блокировки.Настройка скорости сканированияПереходим в Configuration → Crawl Config → SpeedMax Threads (количество потоков) оптимально выставлять значение до 5. Если выставить больше, повышается риск получить бан, а также можно перегрузить сайт во время сканирования.Чем меньше значение потоков, тем медленнее будет проходить сканирование, но при этом снижается риск получить бан.Limit URL/s (лимит на сканирование URL в секунду) оставляем по умолчанию 2.0. При возникновении проблем, например, частых 5XX ошибок, можно снизить значение до 1.0 или 0.5 для более стабильного сканирования.Настройка краулераПереходим в Configuration → Crawl Config → Spider → CrawlResource Links и Page Links можно оставить значения по умолчанию.Check Links Outside of Start Folder позволяет сканировать ссылки за пределами выбранной папки. Например, если вы решили отсканировать вложенную папку (https://site/razdel/), краулер будет проверять и главную страницу, и другие папки. Если вам нужно сканировать только определенный раздел, уберите эту галочку.Crawl Outside of Start Folder позволяет сканировать все ссылки за пределами выбранной изначально папки. Если она активирована, краулер будет обходить не только содержимое указанной папки, но и весь сайт.Crawl All Subdomains — обход поддоменов (опционально, если нужно).Follow Internal/External «nofollow» — обход внутренних/внешних ссылок с nofollow (опционально, если нужно).Crawl Linked XML Sitemaps (сканировать XML карту сайта) обязательно включаем, так как не всегда на все страницы сайта есть внутренние ссылки. Это поможет найти и проанализировать такие страницы.Auto Discover XML Sitemap via robots.txt позволяет автоматически получать XML карту сайта из файла robots.txt. Это удобно, так как не нужно вручную указывать путь к карте сайта.Переходим в Configuration → Crawl Config → Spider → ExtractionPage Details, Directives, URL Details — оставляем по умолчанию и опционально правим если нужно. Например, если вам нужны получить только мета-теги на страницах, то нет необходимости собирать всю остальную информацию.Structured Data — полезная опция, помогает отыскать страницы без микроразметки или найти в ней какие-то ошибки. Ставим галочки, если нужно.Для разделов Limits и Rendering оставляем значения по умолчанию.Переходим в Configuration → Crawl Config → Spider → AdvancedОставляем значение по умолчанию. Дополнительно можно включить Respect noindex (сканировать страницы с мета-тегом noindex), чтобы найти страницы, которые могли быть закрыты этим тегом по ошибке.Переходим в Configuration → Crawl Config → Spider → PreferencesЭта опция позволяет настроить минимальную и максимальную длину мета-тегов, чтобы избежать лишних предупреждений об ошибках. По умолчанию максимальная длина Title — 60 символов, а Description — 150 символов. Рекомендуется установить значения, которые оптимально соответствуют вашим требованиям.Настройка robots.txtПереходим в Configuration → Crawl Config → robots.txtПо умолчанию краулер учитывает файл robots.txt. Если установить опцию Ignore, робот будет сканировать все страницы, даже те, которые были запрещены для индексации.Если учитывать robots.txt, то две нижние галочки позволяют сканировать все страницы сайта, но в отчете будет указано, что они запрещены в robots.txt. Если снять эти галочки, краулер будет сканировать только страницы, которые разрешены для индексации в robots.txt.Режимы сканированияРежим Spider (по умолчанию)Переходим в Mods → SpiderВ обычном режиме обхода, как это делают поисковые системы, робот начинает с главной страницы, затем переходит по всем внутренним ссылкам, постепенно углубляясь по уровням вложенности сайта. Этот процесс продолжается до тех пор, пока не будут просканированы все доступные страницы.Режим ListПереходим в Mods → ListЗдесь можно загрузить свой файл со списком URLs — From a File.Вручную внести свои URLs — Enter Manually.Paste — вставить скопированные URL.Download XML Sitemap — Отправить на сканирование ссылку на файл XML Sitemap.Режим SERPПереходим в Mods → SERPСканирует только Title и Description. Для работы данный режим практически не применяется.Режим CompareПереходим в Mods → CompareРежим сравнения, может сравнивать разные варианты сканирования. Полезный модуль для проверки устранения ошибок.Анализ дублированного контентаПереходим в Configuration → Crawl Config → Content → DuplicatesOnly Check Indexable Pages for Duplicates при включенной галочке проверяет дубликаты только для страниц, открытых для индексирования. Если галочку снять, будут учитываться дубликаты всех страниц, независимо от того, разрешены ли они для индексации.Enable Near Duplicates — процент дублирования (по умолчанию стоит 90%), рекомендуется выставить от 20 до 40%.Результаты можно получить в правом окошке программы в разделе Content.Нас интересуют строки Exact Duplicates (полные дубли) и Near Duplicates (неполные дубли)Также рекомендуется использовать для поиска дублированного контента на сайте бесплатную программу — BatchUniqueChecker. Она поможет определить уникальность страницы в сравнении со всеми страницами внутри вашего сайта.Страницы с малым количеством контентаРезультаты можно получить в том же окошке в разделе Content → AllВ получившемся отчете сортируем страницы по количеству слов.Страницы, которые находятся в noindex мы можем отфильтровать.Можно начинать анализ страниц с наименьшим количеством контента, что поможет быстрее выявить потенциальные дубликаты и оптимизировать слабые страницы.Перейдя по таким страницам, мы можем определить, что на таких страницах в изменяемых частях, контента может и не быть совсем, а весь текст занимает сквозные элементы (header и footer).В таком случае мы может задать определенную часть для сканирования. Копируем id или class этого блока.В случае если такого блока нет или их несколько, проще определить сквозную часть, которую мы исключим из анализа.Переходим в Configuration → Crawl Config → Content → Content AreaПо умолчанию исключаются блоки nav и footer.Mode Include — включить для сканирования.Mode Exclude — исключить для сканирования.Теперь можем в определенное окошко вставить наш блок, который нужно сканировать.В результате на всем сайте будет учитываться только контент, который мы указали в настройках.Страницы с менее чем 100 уникальными словами следует прорабатывать в приоритетном порядке. Такие страницы могут быть отнесены к малополезным (по оценке Яндекса) или «просканированы, но не проиндексированы» (по оценке Google), что негативно влияет на их видимость в поисковых системах.Поиск пустых листингов на сайтеЭтот способ похож на предыдущий метод поиска страниц с малым количеством контента. Например, для интернет-магазина с листингом товаров можно определить class или id для карточки товара, чтобы анализировать именно эти элементы. Это поможет быстро выявить страницы, где контент ограничен только карточками товаров, без достаточного уникального текста, что важно для оптимизации.Убедитесь, что выбран правильный *class* для товаров. Например, если на странице отображается 5 карточек товаров, используйте поиск в коде сайта. Найдите этот *class*, и если найдено 5 совпадений, значит, вы все сделали правильно.Обязательно, предварительно убираем все правила, которые мы задавали в разделе Content Area!Переходим в Configuration → Crawl Config → Custom → Custom SearchНазовите ваш поиск любым удобным именем и вставьте найденный class. Это позволит быстро находить и анализировать нужные элементы на страницах.Результаты можно посмотреть в правом окошке программы в разделе Custom Search.В получившемся отчете вы сможете увидеть, сколько товаров присутствует на каждой странице. Это позволит выявить страницы, где товаров нет или их очень мало, и приоритезировать их для дальнейшей проработки и оптимизации.Проверка наличия счетчиков на страницахКопируем номер счетчика метрики Яндекс. Найти его можно в Метрика → Настройки → Счетчик.Переходим в Configuration → Crawl Config → Custom → Custom SearchВставляем номер счетчика и сканируем сайт.Также можно проверить Google Аналитику, добавив второе правило.Результаты можно посмотреть в правом окошке программы в разделе Custom Search.Анализ Title, Description и заголовков (H1, H2)После того как сайт просканировали смотрим на результаты в правом окошке в разделе Page Title. Для нас самые важные пункты:Missing — пропущенный тег Title на странице.Duplicate — повторяющийся Title на страницах.Same as H1 — Title совпадает с H1Multiple — несколько Title на одной страницеBelow (n-ваше значение) Character — количество символов в теге Title.Аналогично для DescriptionЗаголовок H1Заголовок H2Анализ ответов сервераСмотрим на результаты в разделе Response Codes. Для нас самые важные пункты:Redirection (3xx)Redirection (JavaScript)Client Error (4xx)Server Error (5xx)Все ссылки на данных страницах необходимо исправить. Лучшим результатом является, чтобы все страницы на сайте выдавали Success (2xx) на 100%.Интеграция с внешними APIЧтобы получить больше данных по сайту, можно настроить интеграцию с сервисами аналитики, такими как Google Analytics или Google Search Console. Это позволит получать дополнительные метрики, такие как посещаемость страниц, показатели отказов и позиции в поисковой выдаче, что поможет в более глубоком анализе и оптимизации сайта.Обязательно ставим галочку для учитывания новых страниц.Проверка размеров и доступности изображенийПерейдите на вкладку Images. Для нас самые важные пункты:Over 100 KBMissing ALT TextMissing ALT AttributeПроверка корректности микроразметкиПереходим в Configuration → Crawl Config → Spider → ExtractionСтавим галочки на всю микроразметку.Результаты смотрим в разделе Structured Data.Screaming Frog SEO Spider — это мощный инструмент, позволяющий SEO-специалистам глубоко анализировать сайты и находить способы их оптимизации. В этой статье мы разобрали ключевые функции программы, но её возможности значительно шире. Программа постоянно обновляется, добавляя новые функции, и мы будем делиться с вами свежими рекомендациями и полезными советами по её использованию.2 часть по руководству Screaming Frog SEO Spider совсем скоро!