SiteAnalyzer 2.6 — Произвольные HTTP-заголовки и виртуальный Robots.txt

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Всем привет! Новый релиз SiteAnalyzer заставил себя достаточно долго ждать, однако мы не сидели на месте и реализовали немало новых возможностей, а также исправили массу накопившихся ошибок и багов.

Основными из порядка 30 нововведений новой версии SiteAnalyzer являются: возможность указания произвольных HTTP-заголовков, возможность использования виртуального Robots.txt, добавление колонки "Источник" для изображений. Расскажем обо всем подробнее.

Основные изменения

1. Указание произвольных HTTP-заголовков

Добавлена возможность указания произвольных HTTP-заголовков при обращении к серверу.

При помощи данной опции можно анализировать реакцию сайта и страниц на разные запросы.

Например, кому-то может понадобиться отдавать в запросе Referer, владельцам мультиязычных сайтов захочется передавать Accept-Language|Charset|Encoding, а у кого-то есть потребность в передаче необычных данных в заголовках Accept-Encoding, Cache-Control, Pragma и т.п.

Примечание: заголовок User-Agent настраивается на отдельной вкладке настроек "User-Agent".

2. Виртуальный Robots.txt

Добавлена возможность использования виртуального robots.txt – его можно использовать вместо реального robots.txt, размещенного на сайте.

Это бывает удобно при тестировании сайта, когда, например, нужно просканировать определенные разделы сайта, закрытые от индексации (либо наоборот – не учитывать их при сканировании), при этом не нужно физически вносить изменения в реальный robots.txt и тратить на это время разработчика.

Виртуальный Robots.txt хранится в настройках программы и является общим для всех проектов.

Примечание: при импорте списка URL учитываются директивы виртуального robots.txt (если эта опция активирована), иначе никакой robots.txt для списка URL не учитывается.

3. Проверка уникальности страниц

На вкладке проверки уникальности контента добавлено окно отображения списка страниц, наиболее близких по уникальности к выбранному URL.

При необходимости есть возможность экспорта данных из таблицы в буфер обмена.

4. Колонка "Источник" на вкладке "Изображения"

На вкладке "Изображения" добавлена колонка "Источник", которая отображает страницу, с которой ведет ссылка на исходное изображение.

Примечание: в данную колонку попадает первая попавшаяся на сайте страница, с которой ведет ссылка на данное изображение.

5. Дата последнего сканирования

В списке проектов добавлено отображение даты последнего сканирования проекта.

Данная подсказка отображается при наведении мыши на сайт в списке проектов и, на текущий момент, несет в себе чисто информативное сообщение.

6. Открытие сайта на Web.Archive.org и Robots.txt

Добавлена возможность открытия в браузере файла robots.txt для интересующего сайта и открытия выбранного URL на сайте Web.Archive.org.

Данный функционал призван улучшить взаимодействие пользователя с программой без совершения дополнительных манипуляций в браузере.

7. Учет правил для определенных URL

Оптимизирован учет правил исключенных URL при сканировании сайтов – теперь можно использовать регулярные выражения (RegEx).

Использование RegEx делает учет правил исключения или включения определенных URL при сканировании сайта более гибким. С примерами использования RegEx можно ознакомиться в этой статье.

Прочие изменения

  • Добавлена возможность отмены процедуры тестирования работоспособности списка прокси в любой момент во время теста.

  • Пересканирование произвольных URL проекта теперь происходит в несколько потоков, исходя из настроек программы.

  • В раздел настроек Яндекс XML добавлен сервис SERPRiver для проверки индексации страниц в Яндексе.

  • Восстановлена работа функции Custom Search, предназначенной для поиска контента на сайте.

  • Добавлена возможность перетаскивания по папкам нескольких проектов мышью, а также используя контекстное меню.

  • Добавлены дополнительные кнопки для проверки Google PageSpeed и уникальности контента на соответствующих вкладках.

  • Оптимизирован и улучшен учет настроек правил robots.txt.

  • Исправлена ошибка, возникающая при разборе некорректно заданных правил в robots.txt.

  • Исправлен некорректный учет поддоменов при включенной галке "Учитывать поддомены".

  • Исправлена некорректная кодировка при загрузке HTML-кода страниц в форме тестирования извлечения данных.

  • Исправлена некорректная сортировка вкладки "ТОП доменов", а также других фильтров панели "Custom Filters".

  • Исправлен баг, возникающий при вводе в фильтр проектов адресов сайтов, не присутствующих в списке.

  • Исправлено отображение некорректной кодировки для сайтов, использующих кодировку Windows-1251.

  • Исправлена некорректная фильтрация данных при переключении обычных вкладок и Custom-фильтров.

  • Исправлена ошибка, возникающая при сканировании большого числа сайтов в списке проектов.

  • Восстановлено отображение подробной расшифровки данных, полученных от Google PageSpeed.

  • Восстановлено отображение статистики ошибок для заголовков Title, Description и H1.

  • В разделе Custom-фильтров скрыто отображение избыточного контекстного меню.

  • Оптимизировано добавление большого числа URL в список проектов.

  • Исправлено некорректное определение уровня вложенности URL.

  • Ускорено удаление URL в проектах.

Буду рад любым замечаниям и предложениям по улучшению функционала программы.

Источник: https://habr.com/ru/post/593795/


Интересные статьи

Интересные статьи

Цель статьи, – показать примеры управления реализацией стратегии с помощью корпоративной единой информационной площадки на доступном инструменте, - Битрикс24. В статье на простом языке обсуждаются воз...
Я давно знаком с Битрикс24, ещё дольше с 1С-Битрикс и, конечно же, неоднократно имел дела с интернет-магазинами которые работают на нём. Да, конечно это дорого, долго, местами неуклюже...
Статья о том, как упорядочить найм1. Информируем о вакансии2. Ведём до найма3. Автоматизируем скучное4. Оформляем и выводим на работу5. Отчитываемся по итогам6. Помогаем с адаптацией...
От скорости сайта зависит многое: количество отказов, брошенных корзин. Согласно исследованию Google, большинство посетителей не ждёт загрузки больше 3 секунд и уходит к конкурентам. Бывает, что сайт ...
Основанная в 1998 году компания «Битрикс» заявила о себе в 2001 году, запустив первый в России интернет-магазин программного обеспечения Softkey.ru.