SiteAnalyzer 2.6 - Произвольные HTTP-заголовки и виртуальный Robots.txt

Всем привет! Новый релиз SiteAnalyzer заставил себя достаточно долго ждать, однако мы не сидели на месте и реализовали немало новых возможностей, а также исправили массу накопившихся ошибок и багов.

Основными из порядка 30 нововведений новой версии SiteAnalyzer являются: возможность указания произвольных HTTP-заголовков, возможность использования виртуального Robots.txt, добавление колонки "Источник" для изображений. Расскажем обо всем подробнее.

Основные изменения

1. Указание произвольных HTTP-заголовков

Добавлена возможность указания произвольных HTTP-заголовков при обращении к серверу.

При помощи данной опции можно анализировать реакцию сайта и страниц на разные запросы.

Например, кому-то может понадобиться отдавать в запросе Referer, владельцам мультиязычных сайтов захочется передавать Accept-Language|Charset|Encoding, а у кого-то есть потребность в передаче необычных данных в заголовках Accept-Encoding, Cache-Control, Pragma и т.п.

Примечание: заголовок User-Agent настраивается на отдельной вкладке настроек "User-Agent".

2. Виртуальный Robots.txt

Добавлена возможность использования виртуального robots.txt – его можно использовать вместо реального robots.txt, размещенного на сайте.

Это бывает удобно при тестировании сайта, когда, например, нужно просканировать определенные разделы сайта, закрытые от индексации (либо наоборот – не учитывать их при сканировании), при этом не нужно физически вносить изменения в реальный robots.txt и тратить на это время разработчика.

Виртуальный Robots.txt хранится в настройках программы и является общим для всех проектов.

Примечание: при импорте списка URL учитываются директивы виртуального robots.txt (если эта опция активирована), иначе никакой robots.txt для списка URL не учитывается.

3. Проверка уникальности страниц

На вкладке проверки уникальности контента добавлено окно отображения списка страниц, наиболее близких по уникальности к выбранному URL.

При необходимости есть возможность экспорта данных из таблицы в буфер обмена.

4. Колонка "Источник" на вкладке "Изображения"

На вкладке "Изображения" добавлена колонка "Источник", которая отображает страницу, с которой ведет ссылка на исходное изображение.

Примечание: в данную колонку попадает первая попавшаяся на сайте страница, с которой ведет ссылка на данное изображение.

5. Дата последнего сканирования

В списке проектов добавлено отображение даты последнего сканирования проекта.

Данная подсказка отображается при наведении мыши на сайт в списке проектов и, на текущий момент, несет в себе чисто информативное сообщение.

6. Открытие сайта на Web.Archive.org и Robots.txt

Добавлена возможность открытия в браузере файла robots.txt для интересующего сайта и открытия выбранного URL на сайте Web.Archive.org.

Данный функционал призван улучшить взаимодействие пользователя с программой без совершения дополнительных манипуляций в браузере.

7. Учет правил для определенных URL

Оптимизирован учет правил исключенных URL при сканировании сайтов – теперь можно использовать регулярные выражения (RegEx).

Использование RegEx делает учет правил исключения или включения определенных URL при сканировании сайта более гибким. С примерами использования RegEx можно ознакомиться в этой статье.

Прочие изменения

  • Добавлена возможность отмены процедуры тестирования работоспособности списка прокси в любой момент во время теста.
  • Пересканирование произвольных URL проекта теперь происходит в несколько потоков, исходя из настроек программы.
  • В раздел настроек Яндекс XML добавлен сервис SERPRiver для проверки индексации страниц в Яндексе.
  • Восстановлена работа функции Custom Search, предназначенной для поиска контента на сайте.
  • Добавлена возможность перетаскивания по папкам нескольких проектов мышью, а также используя контекстное меню.
  • Добавлены дополнительные кнопки для проверки Google PageSpeed и уникальности контента на соответствующих вкладках.
  • Оптимизирован и улучшен учет настроек правил robots.txt.
  • Исправлена ошибка, возникающая при разборе некорректно заданных правил в robots.txt.
  • Исправлен некорректный учет поддоменов при включенной галке "Учитывать поддомены".
  • Исправлена некорректная кодировка при загрузке HTML-кода страниц в форме тестирования извлечения данных.
  • Исправлена некорректная сортировка вкладки "ТОП доменов", а также других фильтров панели "Custom Filters".
  • Исправлен баг, возникающий при вводе в фильтр проектов адресов сайтов, не присутствующих в списке.
  • Исправлено отображение некорректной кодировки для сайтов, использующих кодировку Windows-1251.
  • Исправлена некорректная фильтрация данных при переключении обычных вкладок и Custom-фильтров.
  • Исправлена ошибка, возникающая при сканировании большого числа сайтов в списке проектов.
  • Восстановлено отображение подробной расшифровки данных, полученных от Google PageSpeed.
  • Восстановлено отображение статистики ошибок для заголовков Title, Description и H1.
  • В разделе Custom-фильтров скрыто отображение избыточного контекстного меню.
  • Оптимизировано добавление большого числа URL в список проектов.
  • Исправлено некорректное определение уровня вложенности URL.
  • Ускорено удаление URL в проектах.

Сайт проекта: site-analyzer.ru

Буду рад любым замечаниям и предложениям по работе и развитию функционала программы.

0
6 комментариев
Написать комментарий...
Павел Сайк

Андрей, спасибо за новые фишки

Ответить
Развернуть ветку
Андрей Симагин
Автор

Благодарю! По идее 90% всех имеющихся багов исправлено и теперь можно спокойно нечто более толковое внедрять )

Ответить
Развернуть ветку
Roktur

Давно слежу за вами,вы молодцы!🔥

Ответить
Развернуть ветку
Андрей Симагин
Автор

Спасибо!

Ответить
Развернуть ветку
Сергей М.

Интересно сделано. Есть косяк с экспортом - нельзя вытащить список битых ссылок в csv с источниками (они в детальном просмотре по клику на каждую ссылку).

Ответить
Развернуть ветку
Андрей Симагин
Автор

Источники есть в Custom Filters, не все, но основная часть. Приложил скриншот

Ответить
Развернуть ветку
3 комментария
Раскрывать всегда