10 ингредиентов надёжной инфраструктуры хостинга REG.RU
Привет! На связи редакция блога. И сегодня мы расскажем в деталях об одной из сторон инфраструктуры REG.RU, объясним как работает хостинг в критических ситуациях, почему нам доверяет свои сайты огромное число клиентов и докажем, что характеристика «надёжный хостинг-провайдер» на 100% соответствует действительности.
В профессиональных рейтингах хостинг-услуг (Hostings.info, Hosters.ru, Hosting101) REG.RU занимает топовые позиции. И одна из главных причин — это надёжность. Фокус кроется в детальной продуманности инфраструктуры и готовности к разным рисковым ситуациям. Итак, представляем 10 составляющих надёжной технической базы, которая позволяет нам оказывать сервис на высоком уровне.
1. Правильная сетевая инфраструктура
Самый важный фактор, влияющий на доступность — это сетевая инфраструктура. Проблема на уровне сети может привести к недоступности целой стойки, ряда или всего дата-центра. Это ответственность за сотни тысяч клиентских сайтов. Именно поэтому мы полностью дублируем всю сетевую инфраструктуру REG.RU: каждый сервер виртуального хостинга подключен двумя сетевыми картами к двум независимым коммутаторам. Все последующие агрегирующие коммутаторы, в том числе уровня ядра, и все роутеры также имеют дубли.
При этом, резервное оборудование по своим характеристикам ничем не уступает основному. Многие провайдеры пренебрегают этим важным принципом, и как результат, при выходе из строя основного оборудования, резервное может не справиться с нагрузкой. Отчасти причина в том, что хорошее железо требует серьёзных финансовых вложений и, что особенно небольшие провайдеры не могут себе позволить. А кто-то просто уповает на безотказность основного оборудования. Но риски есть риски. Для нас же сохранность данных клиентов — это одна из основ сервиса.
Таким образом, выход из строя любой сетевой карты, кроссировки, коммутатора проходит незаметно для наших клиентов. И пока мы устраняем неполадки их сайты продолжают работать.
2. Защита от сетевых атак
Ежемесячно на REG.RU в среднем направляется до 400 самых разных атак, а однажды это число достигло 850 за месяц! Страшно? Для нас же это обычные будни.
Для защиты от DDoS-атак мы пользуемся услугами сторонних специализированных поставщиков, которые прошли строгий отбор. Основной — DDoS-GUARD, а в качестве резервного используем StormWall. Да-да, поставщиков защиты мы тоже резервируем!
По умолчанию, весь сетевой трафик проходит мимо поставщиков защиты. Мы разработали специализированное ПО, которое позволяет в течение нескольких секунд после начала атаки обнаружить её, и ещё через несколько секунд перевести вредоносный трафик на поставщика защиты: он очищает весь трафик от вредоносного, и к нам пропускает только легитимный.
Мы уделяем должное внимание атакам любого уровня, включая, например, уровень приложений, поскольку они могут привести к недоступности целого сервера с сотнями клиентских сайтов. Для защиты от такого типа атак между инфраструктурами REGRU и DDoS-GUARD создана уникальная система, которая переводит паразитный трафик на узлы фильтрации без изменения ресурсных записей в DNS. А значит вновь всё проходит незаметно для клиента и его нервной системы.
3. Мониторинг — всему голова
Система мониторинга в круглосуточном режиме отслеживает работу всей системы и сигнализирует, если что-то где-то пошло не так. Мы используем Nagios с уникальным набором самых разных проверок: их статус обновляется каждую минуту. Сейчас в системе находится более 2000 узлов и свыше 50000 проверок. Согласно регламенту (SLA), в течение 5 минут с момента уведомления системой мониторинга проблема берётся в работу.
4. Резервное железо
Концепция виртуального хостинга с доступными ценами не позволяет зарезервировать все серверы, на которых находятся клиентские сайты. И каким бы хорошим ни было железо, аппаратные проблемы случаются — выходят из строя CPU, модули памяти, материнской платы, и с этим конечно нужно что-то делать. И мы сделали: под каждую уникальную аппаратную конфигурацию мы держим уже скоммутированный резервный сервер. При выходе основного сервера из строя, дежурный инженер просто переносит диски в резервный. Недоступность проблемного сервера (и сайта клиента) в такой ситуации составляет не более 15-20 минут, что является нормой для устранения подобных проблем. Клиент переводится на резервный сервер и остаётся на нём с полноценным рабочим хостингом.
5. Постепенная выкатка обновлений
На работоспособность инфраструктуры может влиять и обновление функционала. Мы используем конвейерный подход и он проходит несколько стадий тестирования:
- новые конфигурации и новый код одновременно выкатываются только на 5% серверов
- после обкатки всех изменений происходит выкатка на ещё на 5% серверов
- далее, пошагово добавляется ещё 15%, 25% и в завершении — 50%.
На каждую порцию серверов изменения выкатываются в течение часа. В процессе на каждом из шагов мы наблюдаем за клиентскими запросами и можем приостановить выкатку или внести необходимые изменения.
Если что-то пошло не так мы узнаем это из мониторинга либо от клиентских служб. Преимущество подхода в том, что если баг появился, мы увидим, когда он будет актуален для ~5% пользователей и сможем оперативно его устранить.
6. Бэкапы, бэкапы и ещё раз бэкапы
Раз в сутки мы производим резервное копирование всех клиентских данных, после чего они хранятся 30 дней. А значит в случае внештатной ситуации каждый клиент shared-хостинга сможет восстановить данные своего сайта в течение этого срока.
7. Изоляция сети на VPS/VDS
Важно, что на серверах с услугами VPS/VDS мы, в отличие от многих других хостинг-провайдеров, не используем бриджи (способ настройки, когда все виртуальные серверы находятся в одном широковещательном домене), а все клиенты на сетевом уровне изолированы как друг от друга, так и от нашей сети. Таким образом, владельцы виртуальных серверов не могут влиять на стабильность сетевой инфраструктуры. Уверенно можем сказать, что это одно из наших преимуществ.
8. Высокопроизводительная DNS-платформа
Кроме хостинг-услуг, огромную долю в REG.RU занимает регистрация доменов. Сегодня мы самый крупный регистратор в России по количеству зарегистрированных адресов в .RU и .РФ. Всего на обслуживании компании находится 3 млн доменных имён, а на серверах компании размещаются сотни тысяч сайтов. Все DNS-серверы провайдера зарезервированы, в том числе на разные дата-центры, поэтому выход из строя одного никак не повлияет на целостность инфраструктуры.
Также у нас построена высокопроизводительная DNS-платформа, которая в условиях одного миллиона доменных зон (на DNS каждое доменное имя — это отдельная зона) и 10 миллионов ресурсных записей позволяет обработать около 100 000 запросов в секунду на одном ядре CPU.
9. Первоклассные специалисты
Сегодня в дежурной службе REG.RU работает 11 профессионалов. Инфраструктура никогда не остаётся без внимания, потому что наши главные инженеры доступны в режиме 24х7, буквально спят с ноутбуками и при необходимости в любой момент включаются в решение вопросов разной степени тяжести.
10. Работа с человеческим фактором
До тех пор, пока искусственный интеллект не взял всё в свои руки, человеческий фактор остаётся одним из рисков как для маленьких компаний, так и для гигантских IT-корпораций. Чтобы нивелировать их, по каждому произошедшему факапу длительностью от 15 минут мы проводим детальный разбор полётов. Разбираем кейсы, автоматизируем всё, что можно автоматизировать и заменяем ручной труд, вносим изменения в инструкции, чтобы избежать повторения ситуации.
⌘⌘⌘
Хостинг в России представлен сотнями самых разных компаний, но как понять, кто из них действительно надёжный или самый надёжный хостинг-провайдер? Теперь вы на примере REG.RU знаете базис, который обеспечивает бесперебойную работу сайтов, и при выборе провайдера можете обращать внимание на эти детали. А если что-то осталось непонятным — пишите в комментариях и мы обязательно проясним любой вопрос.
Наглядное устройство инфраструктуры вы можете узнать из репортажа по дата-центру, где размещается REG.RU.