Энтузиасты подсчитали, что на YouTube размещено более 13,325 млрд видео; и только 4% из них посмотрели более 10 тыс. раз

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.
Так, по мнению исследователей, росло количество видеороликов на YouTube
Так, по мнению исследователей, росло количество видеороликов на YouTube

Группа исследователей задалась вопросом: сколько видеороликов размещено на YouTube? Эксперты считают, что оценить объём той или иной интернет-платформы достаточно сложно. Однако это не остановило энтузиастов. Среди них оказался доцент кафедры государственной политики, коммуникаций и информации Массачусетского технологического института, сооснователь блог-агрегатора Global Voices, интернет-активист и блогер Итан Цукерман. Вместе с единомышленниками он решил вычислить объём YouTube. Результат их подсчётов — более 13,325 млрд роликов.

Как пишут Tech News Space, некоторые онлайн-платформы, такие как Reddit, много лет позволяли собирать статистические данные при помощи специальных API. Благодаря этому, исследователи могли понять, например, какая часть пользователей платформы интересуется мемами или криптовалютами, а какая — психическим благополучием и настольными играми. Однако в этом году Reddit закрыл возможность обработки публикаций. Аналогичным образом поступили и в соцсети Х (бывшем Twitter).

Хотя YouTube имеет хорошо задокументированный API, надёжного способа получить случайную репрезентативную выборку YouTube не существует. Вместо этого в большинстве исследований YouTube рассматривается либо как коллекция видео, либо как видео, найденные в рекомендациях. Любой из этих методов позволит провести исследование, но ни один из них не позволит подсчитать размер YouTube.

Для решения этой задачи Цукерман и его единомышленники обратились к Джейсону Баумгартнеру, создателю проекта парсинга Reddit под названием PushShift, который знает, как работать с недокументированными API для сбора данных. В случае с YouTube это был инструмент InnerTube, который Джейсон использовал для создания случайных URL-адресов YouTube и проверки их существования. URL-адрес YouTube выглядит следующим образом: https://www.youtube.com/watch?v=vXPJVwwEmiM, где значения изменяются после «watch?v=». Первые 10 из 11 символов ссылки могут быть прописными или строчными буквами английского алфавита, числами от 0 до 9 и символом «_». Последний символ может иметь только одно из 16 значений.

В результате подсчётов выяснилось, что существует 264 возможных URL-адресов YouTube. И хотя на YouTube очень много роликов, очевидно, что не настолько. Если предположить, что на YouTube размещён 1 млрд видео, то случайный подбор URL-адреса даст только один правильный вариант из 18,4 млрд попыток. Исследователи назвали этот метод «пьяным набором номера». После оптимизации этого метода в течение нескольких месяцев они смогли идентифицировать на платформе 10 тыс. действительно случайных видеороликов. В процессе этой работы исследователи также обнаружили, что YouTube склонен рекомендовать видео, которые значительно отличаются от «средних» видео на платформе. Дело в том, что платформа рекомендует ролики с количеством просмотров не менее 10 тыс., тогда как «средний» ролик имеет всего 39 просмотров.

Во время исследования YouTube методом «пьяного набора» проверяли порядка 32 тыс. адресов, и «попадание» регистрировалось примерно через каждые 50 тыс. наборов. В результате энтузиасты подсчитали, что объем YouTube составляет 13 235 821 970 видеороликов. 

Эта и другая статистика теперь обновляется на сайте tubestat.org каждые несколько недель. После того как было подсчитано количество видео на платформе, исследователи стали изучать и другую статистику YouTube. Например, «возраст» видео в случайной выборке помогает увидеть, как быстро растёт YouTube: по оценкам исследователей, только в 2023 году на нём было размещено более 4 млрд новых видеороликов. Также удалось подсчитать, что ролики с числом просмотров более 10 тыс. составляют лишь 4% от общего объёма контента, размещенного на YouTube, но при этом на них приходится львиная доля от общего количества просмотров.

На что ещё обращает внимание Tech News Space: группе энтузиастов в итоге удалось разработать гораздо более надёжный метод изучения YouTube, чем «пьяный набор». Метод случайной выборки видео последовательно обходит всё адресное пространство. Исследователи намерены продолжить работу с YouTube.

Источник: https://habr.com/ru/news/783376/


Интересные статьи

Интересные статьи

После долгого полёта в глубины космоса вы с другом попадаете в плен к загадочным существам. Вам предложен выбор: остаться пленниками или победить их в игре и стать свободными. Решение принято, и вы об...
Китай вот уже несколько лет активно реализует программу развития собственной электронной промышленности. В этой программе принимают участие как государство, так и частные компании. Одна из них, Hu...
В течение многих лет мы написали много шаблонного кода, такого как методы получения, установки, равенства, хэш-кода и т. Д., На Java. В некоторых случаях это вызывает проблемы в ...
Теперь асинхронную связь внедряют не только на удалёнке Иллюстрация: Yin Weihung Исследование за исследованием вновь доказывают, что удалённые работники более продуктивны, чем их коллеги в ...
Радиация есть везде. Есть она и в Москве. И я выгулял свой новый самодельный сцинтилляционный радиометр (о нем, наверное, скоро будет подробная публикация), чтобы выяснить, какие места в Моск...