Парсинг Яндекс Карт или как найти целевую аудиторию

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Всем привет, меня зовут Стешенко Артем. Я работаю в Data Science и также занимаюсь небольшим проектом по разработке страниц (или мультиссылок) для самозанятых.

Бизнес-задача

Перед тем как перейти к парсингу Яндекс Карт, расскажу, какую задачу я хотел решить.

Я решил узнать, кто является целевой аудиторией для сервисов мультиссылок, например Taplink. Если зайти на сайт Taplink'a, то они там показывают сценарии использования сервиса и пишут о категориях клиентов, на которые они ориентируются. Это “популярные люди”, “бизнес”, “интернет-магазин” и “каждый”. На лендинге немало примеров работ для оффлайн бизнеса, поэтому появилась идея проверить, используют ли вообще эти категории бизнеса сервисы мультиссылок. И для этого пригодится информация с Яндекс Карт.

Скрин лендинга https://taplink.ru/
Скрин лендинга https://taplink.ru/

Поделим сайты на типы:

  • сайты на собственном домене (или сделанные в конструкторе, или разработанные самостоятельно)

  • сайты на домене конструктора

  • страницы на домене сервиса мультиссылок

  • последний тип организаций без сайта, но с соцсетью

Целевой аудиторией будут те организации, где последние три категории представлены в большом количестве. Почему так? Потому что компании, имеющие соцсети, развиваются, и многим из них в скором времени может понадобиться сайт. А большое количество организаций (определенной категории бизнеса), которые пользуются конструктором, говорит о том, что этому сегменту интересны сервисы мультиссылок. Бизнес со своим доменом с большой вероятностью не перейдет в Taplink.

Парсинг Карт

Перед тем, как что-то парсить, нужно узнать, есть ли у сервиса API. У Яндекс Карт оно есть, но там есть определенные ограничения. Найти XHR запросы в консоли разработчика или json‘ы в html странице мне не удалось, поэтому пришлось писать парсер на selenium и bs4.

Здесь github проекта.

Я разделил работу на две части. Первая: сбор ссылок на страницы организаций. Вторая: сбор информации по этим ссылкам.

Собираем ссылки организаций

LinksCollector - это сборщик ссылок, в метод run нужно передать город, район, тип организации и последний параметр type_org - это тип организации (а также папка, куда складываются ссылки)

from selenium import webdriver
from link_parser import LinksCollector

driver = webdriver.Safari()
grabber = LinksCollector(driver)
grabber.run(city='Москва', district='район Арбат', type_org_ru='Кафе', type_org='cafe')

Внутри LinksCollector: driver открывает https://yandex.ru/maps, вводит нужный запрос, собирает все организации по запросу в регионе и сохраняет.

Пример работы парсера
Пример работы парсера

Parser - это сборщик информации со страницы организации. В метод parse_data нужно передать список ссылок hrefs, которые мы нашли ранее и папку для сохранения информации type_org(у меня такая же, как тип организации).

from selenium import webdriver
from info_parser import Parser

driver = webdriver.Safari()
parser = Parser(driver)
parser.parse_data(
  hrefs=["https://yandex.ru/maps/org/tsentr_pravovykh_konsultatsiy/1180977373/"],
  type_org='cafe'
)

Внутри Parser: webdriver обходит все страницы по списку и собирает следующую информацию: название, сайт, соцсети, телефон, адрес, рейтинг, время работы. Можно собирать и товары, и услуги при желании. Для моего "исследования" нужны только соцсети и сайт.

Немного аналитики

В jupyter-ноутбуке можно посмотреть на то, какие организации какие типы сайтов используют.

Кафе практически никогда не используют мультиссылки. Используют чаще всего сайт на своем домене или соцсети. Что логично по нескольким причинам:

  1. Крупные сети или дорогие рестораны имеют средства на свой сайт.

  2. Небольшим кафе проще добавлять свое меню в Яндекс Картах или постить фото в соцсети.

Поэтому сервисам мультиссылок стоит задуматься об API соцсетей и переносить посты с фото себе. Или сосредоточится на клиентах другой категории. Taplink у себя в лендинге целый раздел завел с примером кафе, хотя стоило бы сделать пример для категории, которая будет использовать сервис чаще и реально является потенциальным клиентом.

https://taplink.ru/
https://taplink.ru/

Следущая категория - это "Ногтевая студия". Почти все организации этого типа имеют соцсети, ведь нужно выкладывать фото красивых ноготочков. Но в отличие от "Кафе" некоторые имеют мультиссылки и используют их для записи в салон. Я думаю, если подумать над идеей переноса фото и постов из соцсетей, то пользователей будет больше, ведь тогда на красивые ноготочки можно будет смотреть на странице (мультиссылке).

Такие организации как "Отель", "Фитнес" делают свои сайты. "Шоурумы", как ни странно, тоже: для них важен модный дизайнерский сайт. Подробнее про то, как определялись типы сайтов, и больше аналитики можно посмотреть в ноутбуке.

Выводы

  1. Во-первых, сбор небольшого количества данных на коленке может помочь понять: какая ваша целевая аудитория и как себя лучше позиционировать.

  2. Просмотр их сайтов или соцсетей поможет понять, что нужно ЦА и какие фичи следует добавить, чтобы улучшить сервис.

Я надеюсь, вам понравилась статья.

Также надеюсь, что вам поможет парсер для ваших задач. Также не сомневаюсь, что многие могут написать его лучше. Тогда прошу делиться мыслями и идеями

Источник: https://habr.com/ru/post/701478/


Интересные статьи

Интересные статьи

Друзья, команда моего агентства Lucky Hunter подготовила для вас небольшую игру! На картинке ниже зашифрованы 15 “пасхалок” – каждая из них имеет отношение к сфере IT. Попробуйте найти ...
Привет, Хабр! Хочу поделиться опытом анализа текста. Возьму рабочий пример документов в отношении граждан, проходящих процедуру банкротства. Задача заключается в автоматизированном сборе информации из...
Привет, Хабр!На связи Андрей Рыжкин, CTO AGIMA. В нашей компании более 30 команд разработки, и у каждой свой тимлид (или несколько). Людей много, а значит, их нужно нанимать, развивать, мотивировать, ...
Теория конечных автоматов лежит в основе многих алгоритмов, к которым часто прибегают разработчики. Решение многих проблем уже давно придумано и зачастую с использованием конечных автомат...
4 года назад я с коллегой поехала на свой первый митап. Начальник не отпустил пораньше, поэтому нам пришлось доработать свои регламентированные часы и мчать на такси до места проведения митапа. М...