Готовность к перерывам в работе ЦОД

В некотором смысле не существует понятия “небольшого простоя”, если компания в значительной мере зависит от своего дата-центра при выполнении своих основных бизнес-функций. Даже небольшой простой (по времени или масштабу)  может отразиться на доходе и репутации. Вы можете быть готовыми к серьезному простою, но готовы вы также к менее серьезному простою?

Причины перебоев в работе дата-центра

Дата-центры представляют собой сложные системы с высоким уровнем внутреннего взаимодействия, которые требуют надлежащего функционирования большого числа подсистем, для того чтобы данный объект мог предоставлять услуги. К сожалению, все это слишком часто означает, что одна на первый взгляд незначительная ошибка, случай или событие могут стать причиной внезапной остановки всей системы. Возьмем кнопку EPO (аварийное отключение питания): одному служащему достаточно принять эту кнопку за устройство для открывания дверей, и весь дата-центра будет отключен от электропитания. Недавно Википедия отключалась от интернет в результате обрыва оптоволоконного кабеля в дата-центре (“Wikipedia outage caused by a data center cable cut”), а во время олимпийских игр на некоторое время прекращалась работа Твиттера в результате отказа системы (и, что интересно, почти одновременного отказа резервной системы) в своем дата-центре (“Twitter: Data center problems caused outage”).

      Из всего этого можно сделать вывод, что для остановки дата-центра требуется намного меньше, чем ураган, землетрясение, отключение от электросети или вредоносная атака. И если в компании выполнение базовых бизнес-функций (например, розничные продажи по Интернету) зависит от дата-центра, то каждая минута простоя приравнивается к потере дохода. Кроме того, клиенты, которые заходя на ваш сайт или пытаясь иным способом получить доступ к вашим сервисам, получают сообщение об ошибке, могут просто обратиться к конкурирующему провайдеру или розничному торговцу и в этом случае можно потерять не только одну бизнес-транзакцию, но и клиента целом, то есть потерь весь доход, который бы он мог принести. И, возможно, клиентам будет безразлична продолжительность перерыва в обслуживании: большинство из них не будет долго терпеть недоступность сервисов в тот момент, когда они им необходимы. Тем не менее, как заметил Боб Бэрд, существует ряд последствий. (“The Service Disruption Continuum”): По его словам, деструктивные события не обязательно могут быть серьезной аварией, которая разрушит ваш бизнес. Это может быть относительно небольшое нарушение функционирования сетевой карты, или такое разрушительное событие как внезапная региональное бедствие, которое не только разрушит ваш дата-центр, но также выведет из строя близлежащие дороги, мосты и другую инфраструктуру.

Подготовка к небольшим перерывам в работе

Нет ни одной абсолютно надежной системы. Все может отказать. Следовательно, если следовать теории вероятности, со временем дата-центр, независимо от его уровня надежности, может выйти из строя. Конечно, необходимо принимать все возможные меры для предупреждения остановок, например, устанавливать резервные системы и избыточные элементы для избегания ситуаций, в которых выход из строя одного элемента может становиться причиной отказа, но также необходим план действий на случай прерывания работы. Во многих случаях, разница между “большим” и “маленьким” простоем может пренебрежительно малой. В других случаях, это может быть не так.

     Например, отказ системы, при котором сервисы по-прежнему доступны, но загружаются чрезвычайно медленно, может быть не лучше, если даже не хуже, чем полномасштабный отказ. Вам, наверное, известно, насколько неприятна медленная загрузка веб-сайта: вы тратите кучу времени, а затем все равно в раздражении закрываете окно. Следовательно, порядок действий при небольших перебоях в работе может быть похожим на план действий при более продолжительных перебоях в работе. В любом случае, главное значение имеет подготовка, которая позволит свести до минимума ущерб для бизнеса. Вот несколько советов.

  • Заблаговременное планирование. Возможно, это самый важный шаг в плане быстрого восстановления после отключения электропитания – как большого, так и небольшого. Если вы начнете составлять план действий, когда произойдет отключение от электропитания, вы уже будете в невыгодном положении. Заранее назначайте лицо, к которому нужно будет обращаться в случае возникновения события – и это может даже зависеть от масштаба отказа. Разрабатывайте процедуры поиска и устранения проблемы. Составляйте списки сервисных провайдеров, к которым вам придется обращаться за помощью, в случае отказа некоторых систем, например, источника бесперебойного электропитания. И, что самое важное, упорядочивайте всю эту информацию и размещайте ее в месте, где она может быть легко доступной для тех, кому она может понадобиться. Заблаговременное планирование позволяет быстрее возобновить работу дата-центра — и бизнеса.
  • Резервное копирование данных. Зачастую большинство людей рассматривают страховые полисы, как лишние расходы, которые ничего не приносят. Но когда разражается бедствие, страховые полисы с лихвой окупаются. Это же относится к резервному копированию критических данных. Данная процедура кажется тратой времени и денег до момента потери данных. Тогда резервное копирование полностью оправдывает себя. Однако резервные копии должны регулярно создаваться во время нормальной работы системы. Это будет бесполезным или почти бесполезным занятием, когда остановка уже произошла.
  • Развертывание решения управления/мониторинга инфраструктуры дата-центра (DCIM). Ключом быстрого решения проблемы простоя является обнаружение его причины. С помощью фонаря и мультиметра вы вряд ли сможете это сделать. Вам нужен будет  центральный доступ к информации и статусу систем, для того чтобы вы могли быстро определить и локализовать проблемные зоны. Решение DCIM может также позволять обнаруживать эти проблемные зоны до того как они станут причиной простоя – и это является еще одним огромным преимуществом.
  • Отслеживание пикового использования дата-центра. Периоды максимального или пикового использования ЦОД могут быть наилучшим временем для поиска возможных проблем до того как они вызовут остановку. Также именно в это время вы должны быть больше всего готовы к остановке. Именно в это время может быть наибольшая вероятность срабатывания автоматического прерывателя или отказа охлаждающего устройства.

 Выводы

Подготовка к непродолжительным перебоям в работе похожа на подготовку к продолжительным перебоям. Кратковременный перебой может иметь меньшие последствия для бизнеса, но эту проблему все же необходимо решать, для того чтобы она не выросла в более серьезную проблему. Небольшие перебои в работе также могут сигнализировать о существовании более серьезной проблемы, которая со временем может привести к длительному простою. Однако в любом случае, необходимо принимать меры по подготовке к простоям. Они могут произойти в вашем дата-центре, но если вы будете готовиться к ним заранее, это позволит вам сохранить доходы и репутацию в глазах клиентов.


Поделиться информацией

Вы можете послать эту статью или новость коллеге или знакомому по email со своим комментарием, пригласить обсудить ее. Просто нажмите на иконку конверта --->


Сообщения, вопросы и ответы

Вы можете задать вопрос, написать комментарий, обсудить данную новость или статью.

Ваше сообщение (вопрос, ответ, комментарий)