Что на самом деле произошло в ДЦ Курчатовский
Привет! На связи команда хостинга REG.RU и мы хотели бы детально разобрать случившуюся аварию в ДЦ Курчатовский (KIAEHOUSE). Расскажем, что стало причиной, кого затронуло и как обстоят дела сейчас.
Начать стоит с того, что REG.RU имеет распределённую инфраструктуру. Мы предоставляем различные услуги в четырёх независимых дата-центрах. Так, например, в нашем собственном ЦОД в «Технополис Москва» находятся клиенты с услугами по аренде и размещением оборудования, а также корпоративного облака на VMware, их вчерашний инцидент никак не затронул.
В ДЦ Курчатовский (KIAEHOUSE) в Москве мы арендуем машинный зал, где размещаются серверы для услуг виртуального хостинга и VPS. Именно их в разной степени и коснулась авария. Обо всём в хронологическом порядке.
Гроза и отключение питания
28 июня в Москве прошёл сильный ливень с грозой. Тем, кто находится в Москве, не требуется описание происходящего. Для тех, кто еще не в курсе, подборка роликов от РБК.
Как же катаклизм затронул нас? По информации об инциденте от KIAEHOUSE, в 13:27 во время грозы отключились две независимые энергетические магистрали из-за отключения высоковольтных кабелей из ТЭЦ16 и попадания молнии в трансформаторную подстанцию на территории Курчатовского института.
Дата-центр переключился на автономный источник питания. В течение 50 минут пока он работал, команда ДЦ пыталась ввести в строй резервную линию питания, но её выбивала автоматика. В итоге резерв был запущен, когда автономный источник уже истощился: для всего оборудования, за исключением опорной сети, отключилось питание.
Мы получили уведомление об аварии от ДЦ в 13:45 мск. Важно отметить, что потеря питания на основном и на резервном входе — очень редкий случай, и за почти 10 лет работы с ДЦ Курчатовским — это первая подобная авария. Уровень доступности инфраструктуры ЦОД последние 5 лет составлял шесть «девяток» — 99,9999%. Но автономное питание дата-центра не рассчитано на поддержание инфраструктуры всего дата-центра продолжительное время, и к 14:00 мск серверные стойки начали отключаться от питания. Постоянная работа поддерживалась только для ядра сети дата-центра.
В 13:52 мск восстановили один луч питания. Начался поэтапный ввод системы охлаждения и подача питания на стойки – весь процесс занял около часа. Но часть серверов по-прежнему оставались недоступными:
— вышел из строя один сетевой коммутатор дата-центра и пять сетевых коммутаторов на наших стойках;
— повредились RAID-массивы на инфраструктурных серверах дата-центра;
— несколько наших серверов вышло из строя.
Все коммуникации с KIAEHOUSE ведутся через систему тикетов, которая стала неисправна в результате аварии. В критической ситуации нам пришлось искать варианты, чтобы ускорить восстановление, и стали общаться с инженерами ЦОД в личных мессенджерах, чтобы скорее заменить неисправное оборудование.
Свой почтовый сервис ЦОД восстановил в 17:37, мы продолжили подавать заявки на замену неисправного оборудования через официальный канал. Сервер телефонии дата-центра восстановили в 18:36, а панель управления в 19:53.
Утилизация каналов связи REG.RU в ЦОД KIAEHOUSE
595 решённых тикетов за час и другие детали восстановления
Чтобы максимально оперативно провести восстановительные работы (то, что было возможно сделать с нашей стороны) и оперативно ответить на все заявки, мы вывели на смену дополнительных специалистов — администраторов и специалистов техподдержки хостинга, конструктора, единой службы поддержки.
— В 16:20 восстановлена работа нашей тикет-системы. В 13:30 до аварии в очереди 17 неотвеченных тикетов.
— В 16:24 в техподдержке хостинга было 202 неотвеченных тикета, в 17:05 мы достигли пика в 706 неотвеченных запросов. В среднем по данным за май и июнь мы давали ответ в течение часа на 97% запросов. В этот день срок ответа ожидаемо увеличился.
— К 16:45 нам удалось запустить около 90% серверов виртуального хостинга, 91% серверов классических VPS и 96% серверов Облачных VPS.
— В 17:37 ЦОД восстановил почтовый сервис, мы смогли подавать заявки на замену неисправного оборудования в тикет-системе ЦОД. До этого делали это через личные мессенджеры.
— К 17:47 было запущено 95% серверов.
— С 17 до 18 часов техподдержка решила 595 тикетов. На 18:00 в очереди остался 451 тикет.
— С 18 до 19 поддержка решила 354 тикета. На 19:00 в очереди 268 тикетов.
— В 20:03 электричество было подано на все серверы и все неисправные сетевые коммутаторы были заменены.
— С 19:00 до 20:00 поддержка решила 174 тикета. В очереди — 186 тикетов.
— С 20:00 до 21:00 поддержка решила 94 тикета. В очереди — 189 тикетов.
— С 21:00 до 22:00 поддержка решила 78 тикетов. В 22:00 в очереди осталось 202 тикета.
— К 22 часам осталось 6 серверов, которые имели те или иные проблемы: сгоревший блок питания или материнская плата. Из-за высокой нагрузки на сотрудников дата-центра время выполнения операций сильно затянулось. В результате стандартная задача переноса дисков в подменный сервер, занимающая обычно 10 минут, потребовала 1,5 часа на выполнение.
— К 23:19 проблемы оставались с 4 серверами.
— С 22:00 до 01:00 поддержка решила 113 тикетов. В 01:00 в очереди осталось 120 тикетов.
— К 1:07 все серверы были запущены. Оставалось решить точечные проблемы/ Например, самая частая проблема, которая может возникнуть при обрыве питания сервера, – это поломка баз данных MySQL с таблицами типа InnoDB.
— В 3:00 в очереди осталось 7 неотвеченных тикетов.
Количество неотвеченных тикетов в очереди
Авария, которая произошла — экстраординарное событие для ДЦ в Курчатовском институте. Сегодня, 29 июня, специалисты аварийно-диспетчерского центра и городских энергетических служб занимались выяснением корневых причин аварии и устранения всех последствий.
Мы понимаем, что авария доставила нашим клиентам сложности. Для нас это также стало неожиданностью: повторимся, что за почти 10 лет работы — это первая подобная авария в ДЦ Курчатовский и форс-мажорная ситуация. Учитывая совокупность фактов, мы планируем продолжить сотрудничать с коллегами из KIAEHOUSE и ожидаем от них информацию о работе с подобными рисками, после того, как они полностью расследуют инцидент. Мы будем следить за реализацией всех мер, предотвращающих повторение подобного в будущем.
Мы сделали промокод XLF7NBNU для всех наших клиентов на продление хостинга или VPS на 1 месяц со скидкой 25% до 15 июля 2021 года — с ним можно продлить до 5 услуг хостинга или VPS на одном аккаунте. Этот же промокод даёт скидку 25% при продлении Конструктора сайтов на 1 год. Для Облачных VPS мы уже начислили всем клиентам с активными серверами сумму на 3 дня использования всех серверов на аккаунте.
Если у вас всё ещё остались проблемы с доступностью сайта, напишите заявку в службу поддержки — мы на связи 24 часа и обязательно поможем.
Команда хостинга REG.RU