Пишем парсер-мониторинг для «Hyundai Showroom» с выгрузкой в телеграм-канал

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

  • Ссылка на демо-телеграм-канал

  • Ссылка на репозиторий со скриптом

  • Связаться с автором — urasergeevich@gmail.com.

На сайте https://showroom.hyundai.ru/ можно заказать машину без переплат, напрямую с завода Hyundai, но проблема в том, что машины уходят очень быстро. При этом новые автомобили появляются нечасто, и, чаще всего, можно наблюдать на сайте сообщение об отсутствии машин.

Чтобы успеть забронировать машину, напишем парсер-мониторинг для «Hyundai Showroom» с выгрузкой в телеграм-канал, который будет уведомлять о том, появились ли машины в шоуруме.

Будем использовать язык JavaScript, окружение Node.js, и следующие библиотеки:

  • puppeteer для программного управления браузером;

  • node-telegram-bot-api для отправки сообщения в телеграм-канал;

  • node-cron для установки запуска скрипта по расписанию;

  • winston для логирования.

Заведем константы, в которых опишем хост сайта шоурума Hyundai, доступы для телеграм-канала и переменную окружения:

const hyundaiHost = 'https://showroom.hyundai.ru/';
const tgToken = 'SOME_TELEGRAM_TOKEN';
const tgChannelId = 'SOME_TELEGRAM_CHANNEL_ID';
const isProduction = process.env.NODE_ENV === 'production';

Создадим новые инстансы модулей телеграм-бота и логгера.

Логгер нужен для того, чтобы сохранить в файловой системе информацию о данных, которые получил парсер, когда загрузил страницу. Это может помочь при отладке и, например, будет полезно для сравнения работы парсера с другими парсерами:

const bot = new TelegramBot(tgToken);
const logger = winston.createLogger({
    transports: [
        new winston.transports.File({
            filename: './log.txt',
        }),
    ],
});

Функция start запускает функцию exec и устанавливает cron. Функция exec содержит основную часть бизнес-логики скрипта:

async function start() {
    exec();

    cron.schedule('* * * * *', () => {
        exec();
    });
}

Опишем функцию exec.

Создадим инстанс браузера в режиме headless, чтобы в операционной системе не запускался графический интерфейс браузера. Пропишем дополнительные аргументы, которые позволят ускорить работу браузера:

  const browser = await puppeteer.launch({
    headless: true,
    args: [
        '--disable-gpu',
        '--disable-dev-shm-usage',
        '--disable-setuid-sandbox',
        '--no-first-run',
        '--no-sandbox',
        '--no-zygote',
    ],
});

Создадим новую страницу, а также вызовем функцию setBlockingOnRequests, — эта функция установит блокировку некоторых сетевых запросов, которые происходят на странице шоурума. Это нужно чтобы ресурсы, не относящиеся к полезной работе парсера, не загружались. Например, изображения или сторонние скрипты, такие как Google-аналитика и рекламные системы:

const page = await browser.newPage();

await setBlockingOnRequests(page);

Сделаем первый вызов try-catch, в котором загрузим страницу. Если страница не загрузилась, создадим отчет об ошибке при помощи функции createErrorReport. Передадим туда аргументы:

  • инстанс страницы браузера;

  • идентификатор no-page;

  • сообщение «Ошибка посещения страницы»;

  • системную ошибку.

После этого закроем страницу браузера и выйдем из функции exec:

  try {
    await page.goto(hyundaiHost, {waitUntil: 'networkidle2'});
} catch (error) {
    await createErrorReport(page, 'no-page', 'Ошибка посещения страницы', error);

    await page.close();
    await browser.close();
    return;
}

Если страница успешно загрузилась, сделаем следующий вызов try-catch, где попробуем найти CSS-селектор '#cars-all .car-columns' в DOM – так узнаем, отображается ли на странице список автомобилей или нет:

await page.waitForSelector('#cars-all .car-columns', {timeout: 1000});

Также посчитаем количество машин по количеству вхождений в DOM CSS-селектора, принадлежащего к карточке автомобиля:

const carsCount = (await page.$$('.car-item__wrap')).length;

Сформулируем временную метку и сообщение, которое затем отправим в телеграм-канал. Будем использовать функцию pluralize, которая подберет правильное склонение слова в зависимости от числительного:

const timestamp = new Date().toTimeString();
const message = `${pluralize(carsCount, 'Доступна', 'доступно', 'доступно')} ${carsCount} ${pluralize(carsCount, 'машина', 'машины', 'машин')} в ${timestamp}`;

Если приложение запущено в боевой среде, отправим сообщение в телеграм-канал:

if (isProduction) {
    bot.sendMessage(tgChannelId, message);
}

Если CSS-селектор списка машин не найден в DOM, создадим сообщение об ошибке, а затем завершим сессию страницы и браузера:

await createErrorReport(page, 'no-cars', 'Ошибка поиска машин', error);
await page.close();
await browser.close();

Разберем функцию createErrorReport. Формируем сообщения для записи в файл лога:

const timestamp = new Date().toTimeString();

logger.error(`${message} в ${timestamp}`, techError);

Создадим скриншот средствами puppeteer чтобы убедиться, действительно ли машины отсутствовали или, например, изменилась верстка сайта и CSS-селекторы, на которые мы ориентируемся, потеряли актуальность.

Установим самое низкое качество изображения, чтобы файл получился минимального размера, и чтобы большое количество скриншотов не загружали дисковое пространство:

const carListContainer = await page.$('#main-content');

if (carListContainer) {
    await carListContainer.screenshot({path: `${type}-${timestamp}.jpeg`, type: 'jpeg', quality: 1});
} else {
    logger.error(`Не могу сделать скриншот отсутствия автомобилей в ${timestamp}`, techError);
}

Рассмотрим функцию setBlockingOnRequests, которая включает режим перехвата запросов для страницы в puppeteer и устанавливает обработчик события.

Далее, при помощи геттеров resourceType и url, проверим тип и URL загружаемого ресурса. Заблокируем картинки, медиа-файлы, шрифты, CSS-файлы, системы веб-аналитики и рекламные системы, так как никакой полезной информации для парсинга они не несут.

async function setBlockingOnRequests(page) {
    await page.setRequestInterception(true);

    page.on('request', (req) => {
        if (req.resourceType() === 'image'
            || req.resourceType() === 'media'
            || req.resourceType() === 'font'
            || req.resourceType() === 'stylesheet'
            || req.url().includes('yandex')
            || req.url().includes('nr-data')
            || req.url().includes('rambler')
            || req.url().includes('criteo')
            || req.url().includes('adhigh')
            || req.url().includes('dadata')
        ) {
            req.abort();
        } else {
            req.continue();
        }
    });
}

Функция pluralize:

function pluralize(n, one, few, many) {
    const selectedRule = new Intl.PluralRules('ru-RU').select(n);

    switch (selectedRule) {
        case 'one': {
            return one;
        }
        case 'few': {
            return few;
        }
        default: {
            return many;
        }
    }
}

Основное преимущество подобного метода парсинга — несложная реализация, но имеется недостаток — недостаточная надежность, как следствие нестабильной работы сайта шоурума. Его можно исправить, перейдя к работе с REST API, с которым работает сайт шоурума — https://showroom.hyundai.ru/rest/car, но тут мы встретим новое препятствие — шифрование данных.

  • Ссылка на демо-телеграм-канал — https://t.me/hyundaishowroommonitoring

  • Ссылка на репозиторий со скриптом — https://github.com/mikhin/hyundai-showroom-monitor-bot

  • Связаться с автором — urasergeevich@gmail.com.

Источник: https://habr.com/ru/post/593819/


Интересные статьи

Интересные статьи

Я использую текстовый редактор Edlin, когда мне хочется переместиться в 80-е годы. Согласен, развлечение это своеобразное, но у всех свои причуды. Кто со мной? Когда-то стандартным...
Всем привет! В данной статье я поделюсь своей реализацией бота для telegram, который может переводить статьи из интернета в mp3-файлы. Для этого я буду использовать pytho...
В обновлении «Сидней» Битрикс выпустил новый продукт в составе Битрикс24: магазины. Теперь в любом портале можно создать не только лендинг или многостраничный сайт, но даже интернет-магазин. С корзино...
Истории по распиливанию монолита часто похожи одна на другую. Был у команды здоровенный неповоротливый монолит, решили его распилить на россыпь правильных и шустреньких микросервисов, все стало...
Один из самых острых вопросов при разработке на Битрикс - это миграции базы данных. Какие же способы облегчить эту задачу есть на данный момент?