Привет, Хабр! Меня зовут Антон Клочков, я сетевой архитектор в компании DataLine, а также участник проекта linkmeup. Я занимаюсь сетью более 10 лет и за это время успел поработать в больших и маленьких телеком-операторах, крупных корпорациях и небольших бизнесах.
На практике я не раз убеждался, что физика упряма и обязательно отомстит за попытки пренебречь ее законами. За ошибки в физике сети я расплачивался квартальными премиями, исправлением косяков по ночам и «любовью» пользователей. Зато такая школа жизни запоминается раз и навсегда.
Сегодня хочу поделиться подборкой историй про физику сетей и сформулировать правила сетевой жизни, которые вывел на практике.
Обычный день, ничто не предвещает беды, если не считать Очень-Важное-Совещание топ-менеджеров компании. У технической службы последняя заявка на сегодня: нужно подключить нового пользователя.
Доблестная техподдержкабежит спокойно идет разбираться с подключением. Необходимо завести патч-корд в кросс и порт свитча, и рабочий день закончен!
До важного совещания 15 минут.
Как назло, органайзер переполнен. Нужно освободить место и «перекоммутировать» некоторые провода. Расчищаем поляну, вставляем все обратно.
Одно неловкое движение — и тот самый очень важный патч-корд к конференц-системе оказался снаружи. Вот незадача, язычок коннектора был надорван или коннектор почему-то был уже сломан.
До важного совещания в той самой конференц-системе — 10 минут.
Недолго думая, воин техподдержки вставляет сломанный патч-корд обратно в коммутатор. В принципе все держится, все работает.
… На Очень-Важном-Совещании решается судьба энтерпрайза: будет ли у сотрудников годовая премия и прочие важные моменты.
Во время выступления Самого-Важного-Топ-Менеджера сломанный патч-корд предательски начинает движение и выпадает из разъема коммутатора. Главное событие года остается без связи.
Какой была реакция участников, догадаться нетрудно.
Правила патч-кордов:
Отдел закупок телеком-компании узнал про ценовые преимущества омеднённой витой пары из алюминия. Дешево и сердито, берем! Проводов уходит много, так что закупщики взяли большую партию, сэкономили бюджет компании и получили за это свой бонус.
Прошло 9 месяцев. Сразу пачкой стали прилетать заявки: что-то линка нет, все флапает, растут ошибки CRC на портах. Где мой интернет и за что я плачу?
Закупщики не знали, что алюминий и медь образуют гальванопару. За 9 месяцев наша «омеднёнка» испытала немало температурных перепадов, и коннекторы окислились. Но это еще половина боли. Почти все сегменты витой пары были более 40 метров. Мало того, что коннекторы окисляются, так еще линк прыгает из-за большой длины «омеднёнки» .
Поэтому два зимних месяца из трех монтажники разъезжали по точкам присутствия оператора связи и перекладывали линии, вместо того чтобы подключать новых клиентов. Переобжим коннекторов продолжался, пока не перешли на чистую медь.
Правила витой пары:
В любой инструкции по подключению есть пункт: убедиться в отсутствии напряжения в слаботочке. Администратор шел подключать нового пользователя, но услышал над ухом привычное «быстрее-быстрее» и подключился без проверки.
Моргнул раз, и POE-панель выключилась.
Моргнул второй, и половина офиса осталась без связи — через PoE-панель запитаны телефоны сотрудников.
Моргнул третий, и все остались без приложений — по телефону подключались еще и компьютеры пользователей.
В это время подключенный сотрудник озадаченно склонился над блоком питания. Стоило включить компьютер, и можно было услышать звук старого-доброго dialup-модема, который издавал блок питания. Устройство сгорело не полностью и дало нам повод поностальгировать.
Остальным сотрудникам повезло больше: у панели была защита от короткого замыкания. Достаточно было выключить и включить, и, о чудо, все заработало. ИТ-отдел отделался легким испугом.
Правило PoE:
Перед подключением проверяю напряжение на патч-корде тестером с поддержкой PoE. Хорошим тоном считается проверять тестером вообще все каналы перед включением. Посмотреть на розетку и на порт коммутатора недостаточно. Пока вы идете к розетке с другой стороны, все может поменяться.
Как-то раз наш офис переехал в новый бизнес-центр. Время шло, гигабита уже не хватало, LACP не тащил, нужно было переходить на сеть 10G. Начали поднимать.
Некоторые каналы поднимались на десятке сразу, некоторые не поднимались совсем. Один поднимался как-то странно: на портах было слишком много ошибок. Проект рисковал не завершиться в срок, и я начал копать.
Маркировка на кабеле в БЦ отсутствовала. Пришлось забраться под самый потолок и найти кабели с маркировкой. Выяснилось, что подключение организовано так: с одной стороны идут многомодовые патч-корды, дальше одномодовое волокно, и на другой стороне — снова многомодовые патч-корды.
Как мы знаем, одномод и многомод отличаются не только диаметром, но и длиной волны. Получилась такая ситуация:
Представителям бизнес-центра пришлось признать ошибку и переварить все кабели.
* то ли одномодный, то ли многомодный
Правила оптики:
Чем отличается медь от оптики, всем сетевикам понятно. Одно из практических отличий — в экстренной ситуации медный патч-корд можно сделать самостоятельно. Да, мы против самопала, но для хотфикса или тестирования это делают быстро и непринужденно. Оптический патчкорд либо есть, либо нет, поэтому все держат запас на складе.
Сломать оптический патч-корд довольно сложно, но однажды мне повезло: рука просто с мясом вырвала его из коннектора. На мое счастье, архитектура сети была отказоустойчивой, кабели в серверную шли с двух плечей, и сервер продолжил работать. Я отправился на склад и — сюрприз! — не обнаружил ни единого оптического патч-корда.
Спокойно сел за компьютер и вбил патч-корд нужной длины. И тут выяснилось, что в огромном Санкт-Петербурге купить его сегодня практически негде.
Тем временем я заметил сбой на устройстве, которое обеспечивает отказоустойчивость серверов. Один из портов вывалился, и получился шахматный порядок: один сервер недоступен с первого юнита, второй сервер недоступен со второго.
Поиски кабеля продолжились в менее спокойном темпе. Нашлось только одно (Карл!) место, где забрать патч-корд можно СЕГОДНЯ! Пришлось включить режим RUN AS ADMINISTRATOR.
Правило запасных принадлежностей:
Всегда держу запас оптических патч-кордов. Это не медь, быстро обжать времянку не получится.
Запускали в пилоте одну железку. Там, где она крутилась, сеть находилась в одном-единственном первом плане. Не сказать, что система мониторинга отсутствовала как класс, были какие-то зачатки. Но так исторически сложилось, что она не видела, когда сеть заваливает бродкастовым трафиком.
Именно это и произошло. Не без помощи помощи кривых рук администратора устройство собрало на себе петлю, и все выходные молотил бродкастовый шторм.
После этого в прямом смысле сгорело 18 телефонов Avaya: CPU оплавились. Естественно, это большая дыра в бюджете. Повезло, что не сгорела телефонная станция, — иначе меняй работу.
Часть пользователей в это время работали. Они не заметили неудобств, потому что работали на старых телефонах с обычной коммутацией каналов. Ну разве что все выходные «сетка подтормаживала» и отчеты с десятого раза отправлялись.
Казалось бы, при чем тут физика? Сгорели аппараты физически, из-за физически подключенного кабеля в прод, где шаловливые ручонки собрали петлю.
Правила настройки оборудования:
Когда я работал в маленьком интернет-провайдере, на чердаке одного дома был ящик. Ящик служил центром агрегации всех оптических соединений. Открывать его было опасно само по себе: можно обломать патч-корды, идущие в кроссы. Но, вдобавок ко всему, эту стойку не оборудовали органайзерами. По воспоминаниям, это было вот так:
Попытки разобраться в ящике работали как не до конца оттестированный медикамент: в одном месте лечишь, в другом калечишь. Создать аварию можно было на ровном месте. Однажды я хотел переставить из порта номер 2 в номер 3, что в итоге привело к отказу целого региона. Но это уже совсем другая история.
Правила стоек и кроссов:
В идеале стремлюсь вот к этому:
Это далеко не все истории из жизни сетевика. Буду рад, если поделитесь своими. Какие истории помогли вам не повторять популярных ошибок?
На практике я не раз убеждался, что физика упряма и обязательно отомстит за попытки пренебречь ее законами. За ошибки в физике сети я расплачивался квартальными премиями, исправлением косяков по ночам и «любовью» пользователей. Зато такая школа жизни запоминается раз и навсегда.
Сегодня хочу поделиться подборкой историй про физику сетей и сформулировать правила сетевой жизни, которые вывел на практике.
Дисклеймер: в статье собраны истории из моего опыта в больших и малых энтерпрайзах и операторах связи. Многие из них случились со мной или коллегами еще на заре карьеры. Большинство персонажей — собирательные образы, любые совпадения случайны. Мое мнение может не совпадать с мнением компании DataLine.
#1. Судьба энтерпрайза висит на патч-корде
Обычный день, ничто не предвещает беды, если не считать Очень-Важное-Совещание топ-менеджеров компании. У технической службы последняя заявка на сегодня: нужно подключить нового пользователя.
Доблестная техподдержка
До важного совещания 15 минут.
Как назло, органайзер переполнен. Нужно освободить место и «перекоммутировать» некоторые провода. Расчищаем поляну, вставляем все обратно.
Одно неловкое движение — и тот самый очень важный патч-корд к конференц-системе оказался снаружи. Вот незадача, язычок коннектора был надорван или коннектор почему-то был уже сломан.
До важного совещания в той самой конференц-системе — 10 минут.
Недолго думая, воин техподдержки вставляет сломанный патч-корд обратно в коммутатор. В принципе все держится, все работает.
… На Очень-Важном-Совещании решается судьба энтерпрайза: будет ли у сотрудников годовая премия и прочие важные моменты.
Во время выступления Самого-Важного-Топ-Менеджера сломанный патч-корд предательски начинает движение и выпадает из разъема коммутатора. Главное событие года остается без связи.
Какой была реакция участников, догадаться нетрудно.
Правила патч-кордов:
- Всегда использую готовые патч-корды с защитой замка — и никакого самопала. Если язычок сломан, лучше не лениться и заменить патч-корд.
- Если все-таки приходится использовать самопал как временное решение, использую качественный многожильный кабель (stranded или patch) и защитные колпачки.
- Не советую проводить работы, если намечается важная задача, где лучше ничего не трогать. В крайнем случае, нужно четко понимать, что вы делаете. Также есть известная примета, что работы в пятницу, особенно во второй половине дня, — к «веселым» выходным.
#2. «Обеднёнка»
Отдел закупок телеком-компании узнал про ценовые преимущества омеднённой витой пары из алюминия. Дешево и сердито, берем! Проводов уходит много, так что закупщики взяли большую партию, сэкономили бюджет компании и получили за это свой бонус.
Прошло 9 месяцев. Сразу пачкой стали прилетать заявки: что-то линка нет, все флапает, растут ошибки CRC на портах. Где мой интернет и за что я плачу?
Закупщики не знали, что алюминий и медь образуют гальванопару. За 9 месяцев наша «омеднёнка» испытала немало температурных перепадов, и коннекторы окислились. Но это еще половина боли. Почти все сегменты витой пары были более 40 метров. Мало того, что коннекторы окисляются, так еще линк прыгает из-за большой длины «омеднёнки» .
Поэтому два зимних месяца из трех монтажники разъезжали по точкам присутствия оператора связи и перекладывали линии, вместо того чтобы подключать новых клиентов. Переобжим коннекторов продолжался, пока не перешли на чистую медь.
Правила витой пары:
- Нигде не использую «омеднёнку» (или «обеднёнку», как я ее называю). Основное преимущество — цена, и на этом все плюсы заканчиваются.
Если пустить питание по PoE, можно получить непредсказуемые эффекты, вплоть до выхода оборудования из строя. Как правило, «омеднёнка» — это двухпарка, поэтому скорости больше 100 мегабит не видать. Температура и влажность в шкафах бывает разной, контакты окисляются очень быстро, и линки падают на 10 мегабит.
- Если хозяйство досталось в наследство, проверить витую пару очень просто. Если «омеднёнка» стальная — магнитом. Если алюминиевая — смотрим на торец разъема или достаем кабель из бухты и смотрим маркировку.
#3. Мой друг «коротыш»
В любой инструкции по подключению есть пункт: убедиться в отсутствии напряжения в слаботочке. Администратор шел подключать нового пользователя, но услышал над ухом привычное «быстрее-быстрее» и подключился без проверки.
Моргнул раз, и POE-панель выключилась.
Моргнул второй, и половина офиса осталась без связи — через PoE-панель запитаны телефоны сотрудников.
Моргнул третий, и все остались без приложений — по телефону подключались еще и компьютеры пользователей.
В это время подключенный сотрудник озадаченно склонился над блоком питания. Стоило включить компьютер, и можно было услышать звук старого-доброго dialup-модема, который издавал блок питания. Устройство сгорело не полностью и дало нам повод поностальгировать.
Остальным сотрудникам повезло больше: у панели была защита от короткого замыкания. Достаточно было выключить и включить, и, о чудо, все заработало. ИТ-отдел отделался легким испугом.
Правило PoE:
Перед подключением проверяю напряжение на патч-корде тестером с поддержкой PoE. Хорошим тоном считается проверять тестером вообще все каналы перед включением. Посмотреть на розетку и на порт коммутатора недостаточно. Пока вы идете к розетке с другой стороны, все может поменяться.
#4. Модный* бизнес-центр
Как-то раз наш офис переехал в новый бизнес-центр. Время шло, гигабита уже не хватало, LACP не тащил, нужно было переходить на сеть 10G. Начали поднимать.
Некоторые каналы поднимались на десятке сразу, некоторые не поднимались совсем. Один поднимался как-то странно: на портах было слишком много ошибок. Проект рисковал не завершиться в срок, и я начал копать.
Маркировка на кабеле в БЦ отсутствовала. Пришлось забраться под самый потолок и найти кабели с маркировкой. Выяснилось, что подключение организовано так: с одной стороны идут многомодовые патч-корды, дальше одномодовое волокно, и на другой стороне — снова многомодовые патч-корды.
Как мы знаем, одномод и многомод отличаются не только диаметром, но и длиной волны. Получилась такая ситуация:
Представителям бизнес-центра пришлось признать ошибку и переварить все кабели.
* то ли одномодный, то ли многомодный
Правила оптики:
- Не верю написанному на бумаге и проверяю все сам. Типы оптических кабелей проверяю обязательно, но правило касается не только оптики.
- Использую ВОЛС нужного класса OM (2-5) и не смешиваю разные OM. Иначе нужно быть готовым к работе на понижение.
- Перед приемкой ВОЛС получаю результаты тестирования рефлектометра от специалистов, которые варили муфты и кросс.
#5. Еще про оптику и патч-корды
Чем отличается медь от оптики, всем сетевикам понятно. Одно из практических отличий — в экстренной ситуации медный патч-корд можно сделать самостоятельно. Да, мы против самопала, но для хотфикса или тестирования это делают быстро и непринужденно. Оптический патчкорд либо есть, либо нет, поэтому все держат запас на складе.
Сломать оптический патч-корд довольно сложно, но однажды мне повезло: рука просто с мясом вырвала его из коннектора. На мое счастье, архитектура сети была отказоустойчивой, кабели в серверную шли с двух плечей, и сервер продолжил работать. Я отправился на склад и — сюрприз! — не обнаружил ни единого оптического патч-корда.
Спокойно сел за компьютер и вбил патч-корд нужной длины. И тут выяснилось, что в огромном Санкт-Петербурге купить его сегодня практически негде.
Тем временем я заметил сбой на устройстве, которое обеспечивает отказоустойчивость серверов. Один из портов вывалился, и получился шахматный порядок: один сервер недоступен с первого юнита, второй сервер недоступен со второго.
Поиски кабеля продолжились в менее спокойном темпе. Нашлось только одно (Карл!) место, где забрать патч-корд можно СЕГОДНЯ! Пришлось включить режим RUN AS ADMINISTRATOR.
Правило запасных принадлежностей:
Всегда держу запас оптических патч-кордов. Это не медь, быстро обжать времянку не получится.
#6. Бродкастовый шторм и телефоны
Запускали в пилоте одну железку. Там, где она крутилась, сеть находилась в одном-единственном первом плане. Не сказать, что система мониторинга отсутствовала как класс, были какие-то зачатки. Но так исторически сложилось, что она не видела, когда сеть заваливает бродкастовым трафиком.
Именно это и произошло. Не без помощи помощи кривых рук администратора устройство собрало на себе петлю, и все выходные молотил бродкастовый шторм.
После этого в прямом смысле сгорело 18 телефонов Avaya: CPU оплавились. Естественно, это большая дыра в бюджете. Повезло, что не сгорела телефонная станция, — иначе меняй работу.
Часть пользователей в это время работали. Они не заметили неудобств, потому что работали на старых телефонах с обычной коммутацией каналов. Ну разве что все выходные «сетка подтормаживала» и отчеты с десятого раза отправлялись.
Казалось бы, при чем тут физика? Сгорели аппараты физически, из-за физически подключенного кабеля в прод, где шаловливые ручонки собрали петлю.
Правила настройки оборудования:
- Слежу, чтобы мониторинг был всегда.
- Правильно настраиваю storm control BMU.
- Если у вас до сих пор есть STP*, его тоже нужно настраивать.
- Оборудование должно быть управляемым.
- Если эксперименты на проде неизбежны, проверяю что изменилось во время и после эксперимента, а не просто ухожу домой.
#7. Поиски утраченного линка
Когда я работал в маленьком интернет-провайдере, на чердаке одного дома был ящик. Ящик служил центром агрегации всех оптических соединений. Открывать его было опасно само по себе: можно обломать патч-корды, идущие в кроссы. Но, вдобавок ко всему, эту стойку не оборудовали органайзерами. По воспоминаниям, это было вот так:
Попытки разобраться в ящике работали как не до конца оттестированный медикамент: в одном месте лечишь, в другом калечишь. Создать аварию можно было на ровном месте. Однажды я хотел переставить из порта номер 2 в номер 3, что в итоге привело к отказу целого региона. Но это уже совсем другая история.
Правила стоек и кроссов:
- Всегда использую органайзеры или угловые панели. Понятно, это стоит денег, но потом будет проще разобраться, что к чему.
- Маркирую стойки, панели, кабель, патчи, даже всю активку.
- Использую стяжки и липучки при укладывании и закреплении кабелей для удобного доступа к оборудованию и лучшей вентиляции в стойке. Для оптики использую ТОЛЬКО липучки.
- Стойки выбираю под задачу, но если количество оборудования нельзя спланировать заранее, беру высокий шкаф на 42U.
В идеале стремлюсь вот к этому:
Это далеко не все истории из жизни сетевика. Буду рад, если поделитесь своими. Какие истории помогли вам не повторять популярных ошибок?