Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!
Cloudera Data Platform (CDP)
Частное облако Cloudera Data Platform (CDP-Private)
В этой серии статей я продемонстрирую, как использовать мощные возможности гибридного облака Cloudera Data Platform (CDP). Вы узнаете, как задействовать базу частного облака CDP, менеджер репликации, публичное облако CDP, Nifi, Kafka в концентраторе данных, Cloudera Data Warehouse и Cloudera Viz.
Напоминание: видение CDP
Платформа CDP разработана для беспрепятственного развертывания любых рабочих нагрузок, а также для операций с данными (таких как сбор данных, потоковая передача, обогащение, проектирование, обслуживание и задачи AI/ML) в любой инфраструктуре с использованием новейших механизмов при сохранении согласованного уровня безопасности и управление (SDX).
Пример использования: Worldwide Bank
В этой статье я буду использовать гипотетический пример банка (Worldwide Bank).
Предположим, что Worldwide Bank - крупный международный банк, который использует традиционную локальную архитектуру больших данных (CDP PvC Base) для проектирования данных и хранения нескольких петабайт данных.
Поскольку пандемия COVID-19 перенесла мир в беспрецедентные времена, конкуренция достигла своего пика, ускоряя организацию данных за счет внедрения новейших технологий и архитектур, особенно облачных инфраструктур.
Первым вариантом использования новой технологической платформы является создание визуального отчета с оценкой для каждого из рисков, связанных с распространением коронавируса.
Реализация этого первого сценария предполагает возможность учета следующих факторов:
Скорость внедрения, включая развертывание облака.
Поддержание высоких стандартов конфиденциальности и безопасности данных.
Повторное использование текущего набора навыков специалистов (например, переносимость ПО).
Архитектура реализации
После тщательного рассмотрения и анализа вариантов банк выбрал в качестве основы гибридной архитектуры платформу CDP, поскольку она удовлетворяет всем его потребностям. В частности, вот схема реализации:
В этой серии статей вы пройдете четыре шага:
Репликация банковских отделений и данных сотрудников (Replication Manager, Cloudera Manager, S3, HDFS).
Фильтрация конфиденциальных данных и применение средств защиты данных (профилировщики каталога данных, Atlas, Ranger).
Обогащение данных, в том числе за счет статистики по COVID-19 (Nifi).
Создание интерактивных визуальных отчетов (Cloudera Data Warehouse, Hive LLAP, Viz).
Примечание: все материалы статей этой серии можно найти здесь.