Big Data в облаке: строим доступное хранилище

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

За последние годы «большие данные» стали восприниматься более гибко и могут включать в себя объемы, которые ранее не рассматривались как «большие». При этом снизились затраты на хранение и обработку информации. Теперь инструменты работы с данными подобных масштабов доступны даже небольшим компаниям.

Важно помнить, что работа в этом направлении включает в себя разнообразные вызовы, связанные с ограничениями оборудования, типами источников данных, сложностью анализа. Данные нужно правильно собирать, хранить и обрабатывать, а для этого нужно выстроить правильную инфраструктуру.

Сегодня расскажем про решение, которое уменьшит неопределенность при работе с крупными данными и поможет максимально быстро построить с нуля удобную и недорогую систему для аналитических задач в вашей компании.

Когда данные становятся большими

Некоторые эксперты считают, что большие данные — это данные объема от 1 Тб, но big data не всегда связана исключительно с объемом. Речь идет о скорости поступления и обработки данных, их разнообразии.

Фактически о переходе к работе с биг датой говорят, когда классические системы, которые вы использовали, например, для создания глубоких и многогранных отчетов, уже не справляются и нужны специальные методы и технологии.

Чтобы консолидировать данные из разных систем, нужно построить масштабируемое хранилище. Трудность представляет собой выбор стека технологий под конкретные задачи.

Что строим: Data Warehouse или Data Lake

В сборе и хранении больших данных существует несколько подходов. Если компания в основном занимается структурированными данными и имеет четко определенные потребности в аналитике, метод Data Warehouse будет подходящим выбором. С другой стороны, если компания планирует работать с разнообразными, необработанными и неструктурированными данными и стремится к большей гибкости, стоит выбрать Data Lake.

Подробнее сравним принципы хранения данных.

Data Warehouse (DWH)

Компания работает со структурированными и обработанными данными, такими как записи транзакций, информация о клиентах и исторические бизнес-данные.
DWH оптимизированы для работы с бизнес-отчетностью, что делает их более подходящими для подготовки отчетов с использованием традиционных инструментов бизнес-аналитики (BI).
Используются специализированные СУБД, в которые стекаются данные определенного вида.

Data Lake

Компания работает с различными типами данных, включая структурированные и неструктурированные, такие как данные датчиков IoT, данные социальных сетей или мультимедийный контент/
Озера данных предназначены для хранения огромных объемов данных в разных форматах, что обеспечивает большую гибкость при анализе.
Данные принимаются в необработанном виде.

В некоторых случаях компании также используют комбинацию технологий DWH и Data Lake в гибридном решении Data Lakehouse, которое совмещает гибкость озер с четкой структурой DWH. Однако в этом подходе нужно надстраивать дополнительное ПО для трансформации данных и привлекать высококвалифицированных специалистов.

«Безразмерное» файловое хранилище

Как создать расширяемый и универсальный Data Lake для хранения файлов в разных форматах?

Традиционно для построения Data Lake разворачивают кластер Hadoop, но в этом подходе есть несколько ограничений:

сложно масштабировать;
при развертывании на своем железе необходимо самостоятельно поддерживать и обновлять систему;
при масштабировании добавляются новые ноды, а значит и процессорные ядра, которые вам могут быть не нужны.

Если вам требуется простой и понятный инструмент, который не требует глубокого погружения в процессы, при этом стоит меньше и легче масштабируется, обратите внимание на объектное облачное хранилище.

Компания может хранить в объектном хранилище любую информацию, а о масштабировании и железе позаботится облачный провайдер. Для Data Lake объектное хранилище особенно хорошо подходит благодаря своей «безразмерности» и простоте в управлении.

После создания такой инфраструктуры Data Lake можно в максимально короткие сроки стартовать и начать использовать данные.

Тарификация

В объектном хранилище CloudMTS тарифицируется холодное и горячее хранение.

В холодном объектном хранилище выгодно хранить файлы долго и редко к ним обращаться — например, это могут быть архивы электронных документов, файлы видеонаблюдения, бэкапы и так далее.

Горячее объектное хранилище применяется для хранения оперативной информации, доступ к которой необходим постоянно.

Важный плюс объектного хранилища — гибкая тарификация. Хранилище тарифицируется, как правило, в зависимости от общего объема данных, количества GET и PUT-запросов на запись и извлечение данных и объема исходящего трафика.

Чтобы минимизровать стоимость холодного хранения, мы в CloudMTS предлагаем его в стандартном (не геораспределенном) кластере. Сейчас для новых клиентов мы не будем учитывать GET и PUT-запросы в течение месяца. Таким образом, тарифицируется только общий объем данных и исходящий трафик.

Такая схема не требует значительных первоначальных инвестиций. Это отличная возможность запустить свой пилотный проект в облаке. Воспользоваться решением можно по ссылке.

Заключение: почему лучше строить в облаке

Любой разговор про облака — это разговор про скорость развертывания решений: легко подключать, увеличивать и уменьшать ресурсы, что невозможно с физической инфраструктурой. Необходимые ресурсы и сервисы для работы с данными можно получить в несколько кликов.

Объектное облачное хранилище легче связать с другой инфраструктурой проекта. Многие системы, которые предназначены для работы с большими данными, также умеют обращаться к данным, которые хранятся в объектном облачном хранилище.

Наконец, в таком хранилище низкая стоимость хранения, при этом компания платит только за фактически используемые ресурсы (а еще переводит CAPEX в OPEX). Облако горизонтально масштабируется, а значит не требуется вкладываться в дорогие серверные мощности.

Источник: https://habr.com/ru/companies/cloud_mts/articles/782226/

Вернуться к списку

Интересные статьи

Новое в SQL Server 2022: опция WAIT_AT_LOW_PRIORITY в команде DBCC SHRINKDATABASE

Новая опция WAIT_AT_LOW_PRIORITY в команде DBCC SHRINKDATABASE предоставляет возможность снизить конкуренцию за блокировки во время сжатия базы или файла, заставляя сжатие пережидать окончание других ...

DVC — прекрасный инструмент для DataScience

Привет Хабр,меня зовут Дмитрий Несмеянов, я являюсь руководителем направления разработки ML-инфраструктуры "ЛОКО-банка". Сегодня я хочу рассказать про DVC: инструмент, который многие, незаслуженно, об...

DataHub: репозитории данных коммерческого типа. Как зарабатывать на доступе к данным?

Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub - Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье покажу, каким образом можно монетизировать...

Строим Data Vault на данных TPC-H – Greenplum + dbtVault

Привет! На связи Артемий – энтузиаст в сфере Data Warehousing, Analytics, DataOps.Уже продолжительное время я занимаюсь моделированием DWH с использованием dbt, и сегодня пришло время познакомить вас...

Первые шаги в BI-аналитике. Роль Data Engineering

Добрый день, уважаемые читатели! Материал носит теоретический характер и адресован исключительно начинающим аналитикам, которые впервые столкнулись с BI-аналитикой.Что тр...