Анализ статей Хабрахабр

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Решила повторить исследование, сделанное в 2017 году и посмотреть, что изменилось за 5 лет. Ссылка на предыдущую статью Анализ статей Хабрахабр и Geektimes. Дизайн сайта изменился, поэтому делала все в jupyter python, а не wolfram mathematica. Далеко не все графики удалось воспроизвести заново. Получился анализ более чем 260000 статей.

Результаты обработки данных

Анализ хабов

Распределение количества хабов, в которых размещена статья:

1 132354
2 47260
3 38671
5 25265
4 23349
NaN 54

Статей, в которых 5 хабов, стало больше, чем статей, в которых 4 хаба.

Самые большие хабы по количеству статей:

Чулан 29217.0
Программирование 14972.0
Информационная безопасность 14417.0
Разработка веб-сайтов 13796.0
IT-компании 11741.0
Научно-популярное 10972.0
JavaScript 7864.0
Гаджеты 7334.0
Системное администрирование 5706.0
Компьютерное железо 5685.0
Я пиарюсь 5637.0
Разработка игр 5465.0
Разработка мобильных приложений 5318.0
DIY или Сделай сам 5295.0
Open source 5223.0
Разработка под Android 5150.0
IT-инфраструктура 5076.0
Законодательство в IT 5073.0
Карьера в IT-индустрии 5015.0
Python 4885.0

В хабе "программирование" стало больше статей, чем в хабе Разработка веб-сайтов.

Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):

Чулан 29125
IT-компании 5652
Я пиарюсь 5573 Информационная безопасность 4244
Разработка веб-сайтов 2753
Настройка Linux 2117
DIY или Сделай сам 1821
Разработка под Android 1820
Социальные сети и сообщества 1790 Компьютерное железо 1780
Гаджеты 1657
Habr 1647 Законодательство в IT 1521 Программирование 1131
PHP 1064
Java 1048
Разработка игр 1006
Научно-популярное 984
Управление проектами 981
JavaScript 979

Здесь все осталось примерно также.

Количество статей в зависимости от времени

Количество постов за месяц:

За год:

К 2018 количество статей уменьшилось, но затем снова возросло.

В хабе «Математика» за месяц:

В хабе «Математика» за год:

За исключением 2016 года количество статей росло.

Хаб «Космонавтика» за месяц и за год:

К 2021 году количество статей достигло уровня 2015 года.

Хаб «Хабрахабр» превратился в хаб «Habr»:

В 2019 году количество статей немного возросло, но по-прежнему уменьшается.

Облака ключевых слов и отдельных хабов

Здесь ничего не изменилось. Текст выглядит по-другому, так как использовала wordcloud python.

Хаб «Математика»:

Хаб «Программирование»:

Хаб «Java»:

Хаб «Open source»:

Хаб «Машинное обучение»:

Частота встречаемости слов

Здесь не хватило ресурсов для подсчета всех словосочетаний. Можно увидеть как появляются новые термины на примере слова "ковид". В 2013 году термин есть потому, что автор дополнил статью в 2020 году.

Средний и суммарный рейтинг по годам и месяцам

Средний рейтинг по годам:

Суммарный рейтинг по годам:

Средний рейтинг по месяцам:

Суммарный рейтинг по месяцам:

Посты с максимальным количеством

Комментариев: Судьба предателя, угнавшего новейший МиГ-25 в Японию

Рейтингом: Делаем приватный монитор из старого LCD монитора

Количеством плюсов: Делаем приватный монитор из старого LCD монитора

Количеством минусов: Первый пост

Добавлением в закладки: 300 потрясающих бесплатных сервисов

Источник: https://habr.com/ru/post/582550/


Интересные статьи

Интересные статьи

Рано или поздно, каждый пэхапешник, пишущий на битриксе, начинает задумываться о том, как бы его улучшить, чтобы и всякие стандарты можно было соблюдать, и современные инструменты разработки использов...
18 июля 1985 года появилась портативная версия этой игры. Именно этот день стали считать днем рождения “Тетриса”. И несмотря на то, что на дворе уже 2021 года, эту игру и...
Ищете вдохновения в области тестирования программного обеспечения? Вашему вниманию список материалов от одних из самых известных экспертов в этой области. Насладитесь 14 ...
Привет, Хабр! Несмотря на все невзгоды года текущего, интересные мероприятия и статьи с них никуда не деваются. Поэтому ML команда Одноклассников подготовила разборы рабо...
В работе предлагается новый метод кластерного анализа. Его преимущество в менее сложном с вычислительной точки зрения алгоритме. Метод основан на расчете голосов за то, что пара объектов находи...