Как надо исправлять утечки маршрутов

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.
Стоит оговориться, что нижеследующая история во многом уникальна.

И вот как она начиналась. В течение примерно одного часа, начиная с 19.28 UTC вчера, 1 апреля 2020 года, крупнейший российский интернет-провайдер — Ростелеком (AS12389) — начал анонсировать сетевые префиксы крупнейших игроков интернета: Akamai, Cloudflare, Hetzner, Digital Ocean, Amazon AWS и других известных имен. До того момента как проблема была решена пути между крупнейшими облачными провайдерами планеты были нарушены — Интернет «моргнул».

Данная утечка маршрута вполне успешно распространялась через провайдера Rascom (AS20764), откуда через Cogent (AS174) и, спустя еще несколько минут, через Level3 (AS3356) распространилась по всему миру. Утечка была настолько серьезной, что почти все Tier-1 операторы были задеты аномалией.

Выглядело это так:

image

Добавляя снизу:

image

Эта утечка маршрутов задела 8870 сетевых префиксов, принадлежащих почти 200 автономным системам. С большим количеством некорректных анонсов — ни один из которых не был отброшен участниками, их принимающими. В конечном счете, наличие фильтров бы не изменило сам факт утечки маршрута, но сделало бы ее распространение несколько меньшим. Для того чтобы оценить динамику произошедшего, можно посмотреть на пример BGPlay для одного из префиксов Akamai: https://stat.ripe.net/widget/bgplay#w.resource=2.17.123.0/24

Как мы писали вчера, все сетевые инженеры в настоящий момент должны отдавать себе стопроцентный отчет в корректности собственных действий, исключая возможность совершения критической ошибки. Ошибка, которую допустил Ростелеком, отлично иллюстрирует насколько хрупкой сущностью является стандартизированная IETF BGP-маршрутизация и, особенно — в такие стрессовые с точки зрения роста объема трафика времена, как сейчас.

Но что на самом деле отличает данную ситуацию от любой другой, это то, что Ростелеком получил предупреждение от реал-тайм системы мониторинга Qrator.Radar, быстро обратившись к нам за помощью в исправлении последствий.

Учитывая тривиальность ошибок в BGP, в течение текущей пандемии коронавируса, допустить оную крайне легко. Но при наличии аналитических данных, можно быстро реагировать на изменение ситуации, что и было сделано — положив конец утечке и восстановив нормальную маршрутизацию.

Мы всерьез рекомендуем всем интернет-провайдерам, не являющимся Ростелекомом, задуматься о мониторинге BGP-анонсов прямо сейчас, для предотвращения масштабных инцидентов в зародыше. И, конечно, RPKI Origin Validation это не фантастика — это то, чем нужно заниматься в настоящее время.
Источник: https://habr.com/ru/company/qrator/blog/495274/


Интересные статьи

Интересные статьи

Всем привет! Не так давно на работе в рамках тестирования нового бизнес-процесса мне понадобилась возможность авторизации под разными пользователями. Переход в соответствующий р...
Обсуждаем, почему устали зрители и что с этим можно сделать. Читать дальше →
Всем привет. На связи Владислав Родин. В настоящее время я преподаю на портале OTUS курсы, посвященные архитектуре ПО и архитектуре ПО, подверженного высокой нагрузке. В преддверии старта нового ...
Совсем скоро, 29-30 ноября в Санкт-Петербурге и 06-07 декабря — в Москве мы запустим шестой семинар по .NET. На этот раз — по теме многопоточки и конкурентности. Мы уже писали об этом пару раз на...
Если вы последние лет десять следите за обновлениями «коробочной версии» Битрикса (не 24), то давно уже заметили, что обновляется только модуль магазина и его окружение. Все остальные модули как ...