Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!
Всем привет! Новый релиз SiteAnalyzer заставил себя достаточно долго ждать, однако мы не сидели на месте и реализовали немало новых возможностей, а также исправили массу накопившихся ошибок и багов.
Основными из порядка 30 нововведений новой версии SiteAnalyzer являются: возможность указания произвольных HTTP-заголовков, возможность использования виртуального Robots.txt, добавление колонки "Источник" для изображений. Расскажем обо всем подробнее.
Основные изменения
1. Указание произвольных HTTP-заголовков
Добавлена возможность указания произвольных HTTP-заголовков при обращении к серверу.
При помощи данной опции можно анализировать реакцию сайта и страниц на разные запросы.
Например, кому-то может понадобиться отдавать в запросе Referer, владельцам мультиязычных сайтов захочется передавать Accept-Language|Charset|Encoding, а у кого-то есть потребность в передаче необычных данных в заголовках Accept-Encoding, Cache-Control, Pragma и т.п.
Примечание: заголовок User-Agent настраивается на отдельной вкладке настроек "User-Agent".
2. Виртуальный Robots.txt
Добавлена возможность использования виртуального robots.txt – его можно использовать вместо реального robots.txt, размещенного на сайте.
Это бывает удобно при тестировании сайта, когда, например, нужно просканировать определенные разделы сайта, закрытые от индексации (либо наоборот – не учитывать их при сканировании), при этом не нужно физически вносить изменения в реальный robots.txt и тратить на это время разработчика.
Виртуальный Robots.txt хранится в настройках программы и является общим для всех проектов.
Примечание: при импорте списка URL учитываются директивы виртуального robots.txt (если эта опция активирована), иначе никакой robots.txt для списка URL не учитывается.
3. Проверка уникальности страниц
На вкладке проверки уникальности контента добавлено окно отображения списка страниц, наиболее близких по уникальности к выбранному URL.
При необходимости есть возможность экспорта данных из таблицы в буфер обмена.
4. Колонка "Источник" на вкладке "Изображения"
На вкладке "Изображения" добавлена колонка "Источник", которая отображает страницу, с которой ведет ссылка на исходное изображение.
Примечание: в данную колонку попадает первая попавшаяся на сайте страница, с которой ведет ссылка на данное изображение.
5. Дата последнего сканирования
В списке проектов добавлено отображение даты последнего сканирования проекта.
Данная подсказка отображается при наведении мыши на сайт в списке проектов и, на текущий момент, несет в себе чисто информативное сообщение.
6. Открытие сайта на Web.Archive.org и Robots.txt
Добавлена возможность открытия в браузере файла robots.txt для интересующего сайта и открытия выбранного URL на сайте Web.Archive.org.
Данный функционал призван улучшить взаимодействие пользователя с программой без совершения дополнительных манипуляций в браузере.
7. Учет правил для определенных URL
Оптимизирован учет правил исключенных URL при сканировании сайтов – теперь можно использовать регулярные выражения (RegEx).
Использование RegEx делает учет правил исключения или включения определенных URL при сканировании сайта более гибким. С примерами использования RegEx можно ознакомиться в этой статье.
Прочие изменения
Добавлена возможность отмены процедуры тестирования работоспособности списка прокси в любой момент во время теста.
Пересканирование произвольных URL проекта теперь происходит в несколько потоков, исходя из настроек программы.
В раздел настроек Яндекс XML добавлен сервис SERPRiver для проверки индексации страниц в Яндексе.
Восстановлена работа функции Custom Search, предназначенной для поиска контента на сайте.
Добавлена возможность перетаскивания по папкам нескольких проектов мышью, а также используя контекстное меню.
Добавлены дополнительные кнопки для проверки Google PageSpeed и уникальности контента на соответствующих вкладках.
Оптимизирован и улучшен учет настроек правил robots.txt.
Исправлена ошибка, возникающая при разборе некорректно заданных правил в robots.txt.
Исправлен некорректный учет поддоменов при включенной галке "Учитывать поддомены".
Исправлена некорректная кодировка при загрузке HTML-кода страниц в форме тестирования извлечения данных.
Исправлена некорректная сортировка вкладки "ТОП доменов", а также других фильтров панели "Custom Filters".
Исправлен баг, возникающий при вводе в фильтр проектов адресов сайтов, не присутствующих в списке.
Исправлено отображение некорректной кодировки для сайтов, использующих кодировку Windows-1251.
Исправлена некорректная фильтрация данных при переключении обычных вкладок и Custom-фильтров.
Исправлена ошибка, возникающая при сканировании большого числа сайтов в списке проектов.
Восстановлено отображение подробной расшифровки данных, полученных от Google PageSpeed.
Восстановлено отображение статистики ошибок для заголовков Title, Description и H1.
В разделе Custom-фильтров скрыто отображение избыточного контекстного меню.
Оптимизировано добавление большого числа URL в список проектов.
Исправлено некорректное определение уровня вложенности URL.
Ускорено удаление URL в проектах.
Буду рад любым замечаниям и предложениям по улучшению функционала программы.