Big Data в облаке: строим доступное хранилище

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

За последние годы «большие данные» стали восприниматься более гибко и могут включать в себя объемы, которые ранее не рассматривались как «большие». При этом снизились затраты на хранение и обработку информации. Теперь инструменты работы с данными подобных масштабов доступны даже небольшим компаниям.

Важно помнить, что работа в этом направлении включает в себя разнообразные вызовы, связанные с ограничениями оборудования, типами источников данных, сложностью анализа. Данные нужно правильно собирать, хранить и обрабатывать, а для этого нужно выстроить правильную инфраструктуру.

Сегодня расскажем про решение, которое уменьшит неопределенность при работе с крупными данными и поможет максимально быстро построить с нуля удобную и недорогую систему для аналитических задач в вашей компании.

Когда данные становятся большими

Некоторые эксперты считают, что большие данные — это данные объема от 1 Тб, но big data не всегда связана исключительно с объемом. Речь идет о скорости поступления и обработки данных, их разнообразии.

Фактически о переходе к работе с биг датой говорят, когда классические системы, которые вы использовали, например, для создания глубоких и многогранных отчетов, уже не справляются и нужны специальные методы и технологии.  

Чтобы консолидировать данные из разных систем, нужно построить масштабируемое хранилище. Трудность представляет собой выбор стека технологий под конкретные задачи.

Что строим: Data Warehouse или Data Lake

В сборе и хранении больших данных существует несколько подходов. Если компания в основном занимается структурированными данными и имеет четко определенные потребности в аналитике, метод Data Warehouse будет подходящим выбором. С другой стороны, если компания планирует работать с разнообразными, необработанными и неструктурированными данными и стремится к большей гибкости, стоит выбрать Data Lake.

Подробнее сравним принципы хранения данных.

Data Warehouse (DWH)

  • Компания работает со структурированными и обработанными данными, такими как записи транзакций, информация о клиентах и исторические бизнес-данные.

  • DWH оптимизированы для работы с бизнес-отчетностью, что делает их более подходящими для подготовки отчетов с использованием традиционных инструментов бизнес-аналитики (BI).

  • Используются специализированные СУБД, в которые стекаются данные определенного вида.

Data Lake

  • Компания работает с различными типами данных, включая структурированные и неструктурированные, такие как данные датчиков IoT, данные социальных сетей или мультимедийный контент/

  • Озера данных предназначены для хранения огромных объемов данных в разных форматах, что обеспечивает большую гибкость при анализе.

  • Данные принимаются в необработанном виде.

В некоторых случаях компании также используют комбинацию технологий DWH и Data Lake в гибридном решении Data Lakehouse, которое совмещает гибкость озер с четкой структурой DWH. Однако в этом подходе нужно надстраивать дополнительное ПО для трансформации данных и привлекать высококвалифицированных специалистов.

«Безразмерное» файловое хранилище

Как создать расширяемый и универсальный Data Lake для хранения файлов в разных форматах? 

Традиционно для построения Data Lake разворачивают кластер Hadoop, но в этом подходе есть несколько ограничений:

  • сложно масштабировать;

  • при развертывании на своем железе необходимо самостоятельно поддерживать и обновлять систему;

  • при масштабировании добавляются новые ноды, а значит и процессорные ядра, которые вам могут быть не нужны.

Если вам требуется простой и понятный инструмент, который не требует глубокого погружения в процессы, при этом стоит меньше и легче масштабируется, обратите внимание на объектное облачное хранилище.

Компания может хранить в объектном хранилище любую информацию, а о масштабировании и железе позаботится облачный провайдер. Для Data Lake объектное хранилище особенно хорошо подходит благодаря своей «безразмерности» и простоте в управлении. 

После создания такой инфраструктуры Data Lake можно в максимально короткие сроки стартовать и начать использовать данные. 

Тарификация

В объектном хранилище CloudMTS тарифицируется холодное и горячее хранение. 

В холодном объектном хранилище выгодно хранить файлы долго и редко к ним обращаться — например, это могут быть архивы электронных документов, файлы видеонаблюдения, бэкапы и так далее. 

Горячее объектное хранилище применяется для хранения оперативной информации, доступ к которой необходим постоянно.

Важный плюс объектного хранилища — гибкая тарификация. Хранилище тарифицируется, как правило, в зависимости от общего объема данных, количества GET и PUT-запросов на запись и извлечение данных и объема исходящего трафика. 

Чтобы минимизровать стоимость холодного хранения, мы в CloudMTS предлагаем его в стандартном (не геораспределенном) кластере. Сейчас для новых клиентов мы не будем учитывать GET и PUT-запросы в течение месяца. Таким образом, тарифицируется только общий объем данных и исходящий трафик

Такая схема не требует значительных первоначальных инвестиций. Это отличная возможность запустить свой пилотный проект в облаке. Воспользоваться решением можно по ссылке.

Заключение: почему лучше строить в облаке

Любой разговор про облака — это разговор про скорость развертывания решений: легко подключать, увеличивать и уменьшать ресурсы, что невозможно с физической инфраструктурой. Необходимые ресурсы и сервисы для работы с данными можно получить в несколько кликов.

Объектное облачное хранилище легче связать с другой инфраструктурой проекта. Многие системы, которые предназначены для работы с большими данными, также умеют обращаться к данным, которые хранятся в объектном облачном хранилище. 

Наконец, в таком хранилище низкая стоимость хранения, при этом компания платит только за фактически используемые ресурсы (а еще переводит CAPEX в OPEX). Облако горизонтально масштабируется, а значит не требуется вкладываться в дорогие серверные мощности.

Источник: https://habr.com/ru/companies/cloud_mts/articles/782226/


Интересные статьи

Интересные статьи

Новая опция WAIT_AT_LOW_PRIORITY в команде DBCC SHRINKDATABASE предоставляет возможность снизить конкуренцию за блокировки во время сжатия базы или файла, заставляя сжатие пережидать окончание других ...
Привет Хабр,меня зовут Дмитрий Несмеянов, я являюсь руководителем направления разработки ML-инфраструктуры "ЛОКО-банка". Сегодня я хочу рассказать про DVC: инструмент, который многие, незаслуженно, об...
Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub - Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье покажу, каким образом можно монетизировать...
Привет! На связи Артемий – энтузиаст в сфере Data Warehousing, Analytics, DataOps.Уже продолжительное время я занимаюсь моделированием DWH с использованием dbt, и сегодня пришло время познакомить вас...
Добрый день, уважаемые читатели! Материал носит теоретический характер и адресован исключительно начинающим аналитикам, которые впервые столкнулись с BI-аналитикой.Что тр...