Выпуск CelerData призван устранить ограничения, связанные с озерным хранилищем

Компания CelerData, ранее известная как StarRocks Inc., объявила о выпуске последней версии своей унифицированной аналитической платформы — CelerData V3. В ней реализовано множество новых возможностей для пакетной обработки и работы с данными в реальном времени, включая возможность выполнять аналитику без предварительного ввода информации в озеро данных или lakehouse («озерный дом» объединяет преимущества и возможности хранилище и озера одновременно. «озерное хранилище»).

Предприятия уже давно основываются на сборе данных для аналитики. Они импортируют большие разрозненные файлы из различных источников в единое облачное хранилище — например, в озеро данных — и затем проводят анализ. Для этого обычно используются такие интеграционные инструменты, как Matillion и Airbyte.

CelerData V3 для прямой аналитики

Аналитическая платформа CelerData с обновлением 3.0, которое станет общедоступным в апреле 2023 года, позволит корпоративным пользователям осуществлять интеграцию с открытыми форматами таблиц, такими как Hudi, Iceberg и Delta Lake, и применять механизм запросов CelerData к данным без их ввода в озеро данных.

Таким образом, по словам компании, пользователи смогут выполнять запросы к потоковым и историческим данным в режиме реального времени, без необходимости ждать и объединять потоковые данные в пакеты для анализа. Этот шаг также упрощает архитектуру данных и улучшает оперативность аналитики.

«"Озерное хранилище" добавило критические возможности в архитектуру озера данных, внедрив контроль ACID, форматы таблиц и управление данными», — сказал Джеймс Ли (James Li), генеральный директор CelerData. Однако аналитические возможности «озерного хранилища» все еще ограничены и требуют больших затрат. Большинство механизмов запросов с трудом справляются с поддержкой интерактивных случайных запросов, они не способны поддерживать аналитику в реальном времени и разрушаются при столкновении с большим количеством одновременно работающих пользователей."

CelerData, с другой стороны, все больше внимания уделяет поддержке унифицированной аналитики для озер данных и озерных хранилищ. Платформа была построена на базе проекта с открытым исходным кодом StarRocks, который стартовал в 2020 году как форк аналитической базы данных Apache Doris с открытым исходным кодом. Однако с тех пор он разошелся с Doris и превратился в базу данных MPP (массово-параллельная архитектура) OLAP (On-Line Analytical Processing. Оперативная аналитическая обработка), обеспечивающую быструю поддержку запросов в реальном времени для выполнения работы в области аналитики.

Компания утверждает, что сегодня платформа может поддерживать тысячи пользователей одновременно при 10 000 QPS (запросов в секунду), обеспечивая, по крайней мере, в три раза более высокую производительность, чем другие распространенные системы запросов.

Что еще входит в новое обновление?

Помимо интеграции с открытыми форматами таблиц, последняя версия CelerData предоставляет пользователям возможность переносить данные в собственный формат хранения на озере, а также создавать мультитабличные материализованные представления. Это, по словам компании, также поможет ускорить выполнение запросов.

Кроме того, облачно-нативная архитектура обновления — с использованием облачного объектного хранилища — повысит надежность и снизит затраты предприятий на хранение данных. Это также позволит им обеспечить лучшую изоляцию рабочих нагрузок и ресурсов.

Эти разработки помогут CelerData выдержать конкуренцию на рынке механизмов запросов для аналитики данных. Сюда входит поддерживаемый компанией Imply проект Apache Druid, который также является аналитической базой данных реального времени с открытым исходным кодом, и проект аналитической базы данных Apache Pinot, поддерживаемый коммерческим вендором StarTree.

Скоро состоится открытый урок «Use case: примеры и разбор ошибок». На этом вебинаре разберем несколько нетривиальных ситуаций при проектировании use case диаграммы и описании отдельных сценариев, а также обсудим, почему важно не допускать ошибок при проектировании и как это может повлиять на реализацию итогового решения. Записаться на урок можно на странице онлайн-курса «Системный аналитик. Advanced».

Источник: https://habr.com/ru/companies/otus/articles/726872/

Вернуться к списку

Интересные статьи

Заметки по API Aliexpress. Экспорт заказов в Bitrix24, RetailCRM, amoCRM

Хочу поделиться опытом автоматизации экспорта заказов из Aliexpress в несколько CRM. Приведенные примеры написаны на PHP, но библиотеки для работы с Aliexpress есть и для...

Как привлечь выпускников в российские корпорации и НИИ

Эта заметка по сути своей транскрипция выступления, которое я подготовил для круголого стола на форуме Армя-2020, который проходил этим летом. Круглый стол был посвещен п...

Сайт на бесплатной CMS или купить готовое решение на 1С-Битрикс?

Периодически мне в разных вариантах задают вопрос, который «в среднем» звучит так: «что лучше: заказать интернет-магазин на бесплатной CMS или купить готовое решение на 1С-Битрикс и сделать магазин на...

Восстановление резервной копии сайта на «1С-Битрикс» стандартными средствами

Приступая к животрепещущей теме резервного копирования на «Битрикс», прежде всего хотелось бы поблагодарить разработчиков, реализовавших автоматическое резервное копирование в облачное хранилище в вер...

Как начать карьеру еще в вузе: рассказывают выпускники пяти профильных магистратур

На этой неделе в нашем блоге на Хабре вышла целая серия материалов о том, как проходит обучение и практика в магистратуре Университета ИТМО: Магистранты факультета ИТ и программирования деля...