Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!
На днях мы обсуждали работу интернет-провайдеров, а также говорили о проблемах с регулированием облака. Продолжим последнюю тему, но с точки зрения ИТ-инфраструктуры. Дело в том, что в мире наблюдается некоторые сложности со строительством ЦОД, а энергетическая инфраструктура не справляется с нагрузкой — блекауты в дата-центрах становятся все более разрушительными (хотя и более редкими).
Растущий аппетит
Компании возводят все более масштабные дата-центры. Например, в США в штате Аризона расположен ЦОД площадью в 35 тыс. кв. м. Однако построить огромный машинный зал — это еще полдела, далее его необходимо «прокормить». Упомянутый дата-центр вмещает тысячи компьютеров с плановой мощностью более 280+ МВт, что эквивалентно энергетическим расходам тысяч домов. И в мире осталось не так много площадок, подходящих для запуска центров обработки данных с подобными аппетитами, то есть площадок с доступным и достаточно мощным энергоснабжением.
По данным Международного энергетического агентства (МЭА), в 2021 году мировые ЦОДы уже потребляли 1% мирового электричества, и с тех пор эта цифра определенно выросла. Сегодня операторы сталкиваются с нехваткой энергии. Британская электроэнергетическая компания Aggreko опросила более 700 специалистов из компаний-операторов ЦОД. Согласно отчету, многие из них не уверены, что смогут обеспечить свои объекты электроэнергией и поддерживать их в рабочем состоянии даже в перспективе ближайших пяти лет.
Один из ярких примеров — ситуация с AWS в Европе. Из-за растущего спроса на облачные услуги и энергетических ограничений компания была вынуждена ввести лимиты на развертку GPU-узлов в ирландском дата-центре. Сильнее всего это решение затронуло высокопроизводительные вычисления и задачи, связанные с обучением ML-моделей. Высокая нагрузка на электросети в целом привела к тому, что ирландским дата-центрам приходится перераспределять нагрузку на ЦОД в Швеции и других частях ЕС.
Почему так происходит
Наиболее очевидная причина повышенной нагрузки — цифровизация практически всех сфер жизни. Она привела к экспоненциальному росту объемов данных, которые необходимо где-то хранить, и увеличению нагрузки на инфраструктуру дата-центров. По прогнозам Statista, объем генерируемых данных в 2024 году увеличится на 22,5% по сравнению с предыдущим годом и составит 140 зеттабайт.
Вторая причина — получить доступ к надежным источникам электроэнергии становится сложнее. Свободных площадок для размещения дата-центров вблизи крупных электростанций все меньше. Взлетают цены на стоимость земельных участков, удовлетворяющих запросам компаний-операторов, что также создает дополнительные проблемы при строительстве ЦОД. Согласно данным, предоставленным европейской компанией Aggreko, спрос на рынке центров обработки данных опережает предложение. Но возникают трудности, вызванные ростом цен на материалы и недостатком квалифицированных кадров. В результате строительство объектов затягивается, и возникают ошибки при запуске, которые подрывают устойчивость работы дата-центров.
Развитие систем искусственного интеллекта еще больше усугубляет проблемы с нехваткой электроэнергии центров обработки данных. Обучение современных ML-моделей требует колоссальных вычислительных мощностей. CPU и GPU в процессе обучения LLM могут потреблять больше тысячи мегаватт-часов. Инженер Алекс де Врис из Амстердамского свободного университета предполагает, что уже в ближайшем будущем человечество станет тратить на поддержание работы систем ИИ порядка 30 тераватт-часов ежегодно (это число сопоставимо с энергопотреблением Ирландии). Коллеги из Университета Флоренции считают, что прогноз может быть даже заниженным.
Как решают проблему
Облачные гиганты выбирают простой, но не самый дешевый способ — перекупают комплексы с достаточной для их потребностей мощностью. Так, в начале года один крупный облачный провайдер выкупил комплекс дата-центров стоимостью $650 млн. Что интересно, он возведён рядом с атомной электростанцией Susquehanna мощностью 2,5 гигаватт, расположенной на северо-востоке штата Пенсильвания.
В то же время для решения проблемы энергоэффективности операторы ЦОД применяют механизм управления спросом на электроэнергию — demand-side response (DSR). Это — схема, в рамках которой дата-центры модифицируют уровень энергопотребления, в зависимости от возможностей локальной электростанции. Так, если нагрузка на сеть резко возрастает, подключенные к ней ЦОД частично переходят на питание от генераторов и запасных батарей. В то же время операторы дата-центров могут продавать скопившиеся у них излишки электроэнергии в сеть. Например, DSR активно использует компания Microsoft в своем центре обработки данных за пределами Дублина.
Если взглянуть в будущее, то на рынке наблюдается рост интереса к новому виду атомной энергии, известному как малые модульные реакторы (SMR). SMR значительно компактнее и производят меньше энергии, по сравнению с традиционными реакторами. Однако они и более дешевые по сравнению с другими проектами в области атомной энергетики. К сожалению, модульные реакторы пока только перспективное решение, которое находится на ранних этапах реализации. По оценкам аналитиков, к такому формату энергообеспечения дата-центры придут через 10–15 лет.
Также есть мнение, что решением проблемы высокого энергопотребления дата-центров могут стать компактные и открытые модели машинного обучения. Они позволят сократить объем вычислений, а вместе с этим снизит нагрузку на дата-центры. Настройка языковых моделей под конкретные задачи также позволит удешевить их обслуживание.
Рост нагрузки на дата-центры также требует улучшения оборудования с целью повышения энергоэффективности. И чипы Arm уже находят применение в ЦОД, несмотря на то, что ранее технология компании использовалась в большей степени для смартфонов. В теории они способны снизить энергопотребление машинных залов более чем на 15%.
Ситуация с блэкаутами
Несмотря на проблемы с электроэнергией, нехваткой места под строительство ЦОД, статистика говорит, что число блэкаутов в дата-центрах снижается. Но последствия таких сбоев становятся все более разрушительными. По данным Uptime Institute, на каждом серьезном сбое операторы ЦОД теряют от 100 тыс. до 1 млн долларов. Нельзя забывать и про репутационный ущерб, оценить который не всегда представляется возможным.
Например, в прошлом году крупный западный оператор ЦОД столкнулся с масштабным сбоем в работе своих облачных сервисов из-за отключения электроэнергии. Блэкаут вывел из строя инфраструктуру в Западной Европе, из-за чего компании, использующие виртуальные машины и базы данных SQL, столкнулись с перебоями. Попытка переключить питание на генераторы также не увенчалась успехом, так как часть из них не запустилась.
Кроме генераторов, многие ЦОД используют литий-ионные батареи в качестве резервных источников питания. По оценкам Frost & Sullivan, в 2020 году доля таких аккумуляторов в ЦОД составляла 15%, а к 2025 году ожидается, что она вырастет до 38,5%. Однако литий-ионные батареи аккумуляторы более опасны в плане возгорания по сравнению со свинцово-кислотными. При их разрушении могут образовываться горючие газы, что делает тушение пожаров сложным. Распространение такого рода аккумуляторов может вызывать проблемы в будущем, если не принять меры предосторожности.
В целом можно сказать, что блэкауты становятся все более острой проблемой для операторов, требуя новых решений для надежного энергоснабжения, чтобы в будущем избежать серьезных сбоев в работе критически важной инфраструктуры.
Что еще почитать по теме и не только:
Обработка больших данных в QoE Stor. Наш компактный материал, где мы рассказываем о компонентах решения, обработке и хранении информации на сервере статистики нашего продукта для интернет-провайдеров.
Динамика DDoS-атак: обзор первого квартала 2024 года. Это — продолжение нашего обзорного материала, в котором мы следим за тем, как меняется география и интенсивность DDoS-атак. Обсуждаем наиболее заметные кейсы — распространение атак с быстрым сбросом (rapid reset), а также атаку на инфраструктуру разработчика open source инструментов для 3D-моделирования.
Предупрежден — значит вооружен: подборка открытых ресурсов с информацией о выявленных уязвимостях. Подготовили для вас компактный список баз, где можно найти актуальную информацию о сетевых уязвимостях. Среди них широко известные CVE и NVD, а также OpenCVE и VulDB. Каждая из них предлагает API для отправки и получения уведомлений об угрозах — расскажем, где взять документацию.
Телеком против стриминга: как интернет-провайдеры пытаются привлечь инвестиции в сетевую инфраструктуру. Сетевое оборудование дорожает, а программы поддержки и субсидии со стороны правительств подходят к концу. Провайдеры изобретают новые подходы к финансированию своей деятельности. Это — налог на трафик для крупных контент-площадок, слияния с партнерами и конкурентами, а также новые тарифы с подписками на сериалы.
Построить топологию и проверить отказоустойчивость: подборка open source решений для эмуляции сетей. Еще одна подборка с инструментарием для обучения и практики специалистов в области сетевых технологий. Говорим о возможностях Containerlab, Mininet, Kathará и IMUNES и нескольких других систем: что они умеют, кто их разработал, что о них думает сообщество в целом.