Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса

Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани, инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе big data. Что он имеет в виду и что это значит для бизнеса? Давайте разбираться.

Вспомним, что говорили про большие данные

Пятнадцать лет назад эксперты предполагали, что количество данных будет расти очень быстро. И для работы с ними придется изобрести новые инструменты и технологии.

Тогда считали, что компания, которая будет анализировать и обрабатывать big data за два года обгонит другие на десятилетия вперед. Стоит лишь внедрить громоздкое, дорогое решение, масштабируемое под возможный экспоненциальный рост данных. Но эксперты ошибались.

Что же произошло?

Прошло десять лет, как появились платформы, вроде Google Query. И оказалось, что даже у крупного бизнеса порой нет такого количества данных, которые можно назвать большими.

По словам Джордана сейчас даже самые крупные компании имеют от 1 до 10 терабайт аналитических данных. А у большинства объем данных находится в диапазоне от 1 до 100 Gb.

Технологии вполне поспевали за реальным, а не прогнозируемым приростом генерируемой информации. Сейчас средняя компания имеет около 10 Gb данных. И ей вполне хватает аппаратных мощностей, чтобы обработать их за секунды.

В 2006 году стандартный инстанс в AWS использовал 1 ядро и 2 Gb ОЗУ. Рабочая нагрузка на такую машину зачастую не помещалась полностью.
Сейчас же стандартный инстанс AWS работает на физическом сервере мощностью 64 ядра ЦП и 256 Gb RAM, который по желанию клиента можно масштабировать до 24 ТБ оперативной памяти и 445 ядер ЦП. Много ли вы знаете нагрузок, которым требуется столько вычислительных ресурсов?

При этом данные распределяются неравномерно, и большинству компаний не нужно обрабатывать их гигантские объемы. Это привело к тому, что СУБД с традиционной SQL-архитектурой: SQLite, Postgres, MySQL по-прежнему популярны.

И что же мы сейчас имеем? Компаниям предлагают создать и внедрить целый имперский крейсер, тогда как им нужен всего лишь 1 X-wing, чтобы уничтожить Звезду Смерти.

При этом 10 Gb — это все-таки данные, из которых можно извлечь пользу.

Почему 10Gb — это big data?

Давайте представим средний интернет-магазин с клиентской базой в тысячу человек. Пусть каждый из клиентов размещает новый заказ каждый день. И в каждом таком ордере находится сотня позиций. Даже в этом случае сайт генерирует меньше мегабайта новых данных в день. И только почти через 3 года их будет 1Gb.

Поэтому на первый план выходит не столько количество, сколько качество и подход к данным. То, как вы оцифровываете, храните и обрабатываете их. И делать это не так уж и сложно.

2 примера, которые это доказывают

Наглядный пример — сбор и обработка данных об общественном транспорте современного мегаполиса.

Организовать сбор и обработку данных о сотнях, а то и тысячах единиц техники и миллионах поездок, совершенных пассажирами, — это сложно. Но с этой задачей справится грамотно настроенная платформа, построенная на стеке Apache Kafka-Apache Spark-Greenplum.

Аналогичную по изящности платформу по сбору и обработке данных мы реализовали для сервиса Find My Kids. Это приложение, которое помогает родителям не беспокоиться о том, где находятся и что делают их дети, продвинутый GPS-трекер со встроенными функциями.

У приложения миллионы скачиваний в профильных магазинах, но для сбора и обработки данных они используют решение Kafka-Spark-Greenplum. Объем обрабатываемых данных при этом исчисляется даже не терабайтами, а сотней гигабайт.

Да что говорить, у мировых b2c-компаний их накапливается чуть больше 10 Tb. И даже такое количество данных благодаря современным технологиям можно хранить и обрабатывать быстро и без особых проблем.

В чем польза от этого для бизнеса?

В том, что можно не бояться этих самых больших данных. Чтобы реализовать инхауз платформу для сбора и обработки данных, не потребуется целый отдел гениев с докторской степенью по квантовой физике. Будет достаточно трех грамотных инженеров, которые хорошо разбираются в нескольких популярных opensource-решениях. Даже если у вас приложение с миллионами посещений в сутки.

Да, безусловно сложность проекта зависит от типа данных, количества источников, сложности требуемой аналитики и как долго вы их храните. Но начать работать с данными можно уже сейчас и это не потребует больших затрат.

В качестве примера облегченной платформы мы можем привести собственную разработку — лайт-версию нашего продукта ITS DPP. Почитать о её возможностях можно на сайте.

Источник: https://habr.com/ru/companies/itsumma/articles/758996/

Вернуться к списку

Интересные статьи

Каббалистическая вычислительная машина Dataghost 2

Французский коллектив RYBN изучил каббалистическую нумерологическую систему преобразований, ассоциаций и замен, создав удивительное устройство. Их установка Dataghost 2, представленная на выставке Art...

Как управлять проектами машинного обучения и data science

Управлять проектами машинного обучения (Machine learning) и data science сложно, поскольку проекты часто носят исследовательский характер, и трудно предсказать, сколько в...

Должен ли out-параметр быть проинициализирован до возврата из метода?

Наверняка каждый, кто писал на C#, сталкивался с использованием out-параметров. Кажется, что с ними всё предельно просто и понятно. Но так ли это на самом деле? Для затравки предлагаю н...

Больше SoC, хороших и разных. Intel открывает AIB для разработчиков и производителей

В конце января Intel вошла в состав альянса компаний CHIPS (Common Hardware for Interfaces, Processors and Systems), занимающегося разработкой открытых решений для микропроцессорных высокопло...

Как я решал соревнование по машинному обучению data-like

Привет, Хабр. Недавно прошло соревнование от Тинькофф и McKinsey. Конкурс проходил в два этапа: первый — отборочный, в kaggle формате, т.е. отсылаешь предсказания — получаешь оценку качества пр...