Экосистема ваших Big Data-кластеров из решении Apache в Docker-контейнерах на Linux-машинах

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Недавно в своей работе начал практиковаться с Hadoop, Spark и Hive от Apache на примере организации распределенного хранилища данных в крупном и сложном проекте. Так как я хорошо дружу с Linux и вселенной Docker, только одна команда позволит не мучиться с лишней установкой Big Data-решении от Apache, не нагружая при этом свою Linux-машину(при наличии Docker и Docker-Compose):

git clone https://github.com/big-data-europe/docker-hadoop.git && git clone https://github.com/big-data-europe/docker-spark && git clone https://github.com/big-data-europe/docker-hive && cd docker-hadoop && sudo docker-compose up -d && cd .. && cd docker-spark && sudo docker-compose up -d && cd .. && cd docker-hive && sudo docker-compose up -d && cd .. && docker ps

Первые три команды загружают в выбранную вами директорию три Git-репозитория с файлами docker-compose.yml. Каждый репозиторий - это будущий Docker-образ Big Data-решения от Apache, который вы развернёте через минуту.
Остальные команды после первых трёх за исключением последней обращаются к папкам с файлами для будущего Docker-образа для их развёртывании с помощью docker-compose, но на загрузку и подготовку ресурсов для контейнеров может уйти полчаса в зависимости от ресурсов вашей машины и скорости Интернет-соединения. Но перед выполнением всех команд проверьте наличие 53-го порта в TCP для передачи и UDP для приёма, так как утилита без него не может правильно готовить образ. А если его нет, то добавьте;-)
И выполняется последняя команда, которая выводит список всех установленных и запущенных контейнеров. А чтобы проверить работоспособность сердца BigData-семейства Hadoop, введите в браузере адрес http://localhost:9870/ и перед вами откроется главная страница сервера Apache Hadoop:

И если у вас запущен Spark с Hive, это говорит о том, что необходимые нам инструменты успешно установлены и запущены.

Если у вас есть знания по Hadoop, Spark и Hive, вы можете их настраивать, как хотите. А если возникнут вопросы по этому материалу, оставьте их в комментариях. С удовольствием готов на них отвечать!

Источник: https://habr.com/ru/post/577762/

Вернуться к списку

Интересные статьи

Заметки по API Aliexpress. Экспорт заказов в Bitrix24, RetailCRM, amoCRM

Хочу поделиться опытом автоматизации экспорта заказов из Aliexpress в несколько CRM. Приведенные примеры написаны на PHP, но библиотеки для работы с Aliexpress есть и для...

Приглашаем на митап «Apache Kafka в вопросах и ответах» 17 ноября в 19:00

17 ноября в 19:00 мск проведем митап по Apache Kafka. Приглашаем экспертов и слушателей. Читать дальше →

Восстановление резервной копии сайта на «1С-Битрикс» стандартными средствами

Приступая к животрепещущей теме резервного копирования на «Битрикс», прежде всего хотелось бы поблагодарить разработчиков, реализовавших автоматическое резервное копирование в облачное хранилище в вер...

SEO оптимизация сайта на 1С-Битрикс. Продвигаем сайт в поисковых системах.

«Битрикс» — кошмар на костылях. Эта популярная характеристика системы среди разработчиков и продвиженцев ныне утратила свою актуальность.

Обновление ядра 1С-Битрикс на продуктивной площадке

Как обновить ядро 1С-Битрикс без единой секунды простоя и с гарантией работоспособности платформы? Если вы не можете закрыть сайт на техобслуживание, и не хотите экстренно разворачивать сайт из бэкапа...