Нельзя игнорировать техническое обслуживание дата-центра

Все в жизни требует ухода: колеса, отношения и здоровье, и здесь перечислена лишь малая часть всех важных вещей, на которые мы должны обращать внимание. И, конечно, ЦОД не исключение. Если вы хотите, чтобы ваш дата центр имел отличную производительность и при этом сохранял высокий уровень надежности и доступности, вы должны прикладывать соответствующие усилия, для того чтобы работа ваших систем позволяла поддерживать заданный уровень производительности.

Зачем необходимо техническое обслуживание?

Ответ на этот вопрос очевиден, и даже многие администраторы, которые уделяют мало внимания обслуживанию, наверное, все же должны признать его важность. Большинство из этих администраторов и операторов дата-центров, вероятно, будут ссылаться на нехватку времени или ресурсов (денег) на реализацию или применение всех требуемых процедур технического обслуживания.  Однако давайте для примера возьмем ваш автомобиль. Разве вы когда-либо откладывали замену масла или игнорировали индикатор на панели “проверить двигатель”, потому что у вас просто не было времени или денег на немедленное решение проблемы?

     Почему-то в ЦОД повседневные заботы заставляют отодвигать техническое обслуживание на задний план — иногда постоянно. Но в центре обработки данных, который не получает регулярного технического обслуживания, все больше растет риск остановки или возникновения ситуации, которая будет влиять на производительность – как в случае автомобилей. Например, при запылении фильтра в блоке воздушного кондиционирования может возрасти пготребляемая мощность вентилятора. Питер Даффи, технический директор компании Sumerian, отмечает, что потеря производительности, вытекающая из недостаточного обслуживания, может давать кумулятивный эффект, который может иметь не менее плохие последствия, чем простой. “Одно из главных видимых для нас последствий состоит в том, что отсутствие соответствующего технического обслуживания (я бы включил сюда управление нагрузкой и производительностью) приводит к ухудшению.  Например, пользователям требуется больше времени на выполнение отложенных задач, или падает производительность автоматизированных систем, что суммарно может оказывать большее влияние на производительность, чем простой. Например, ухудшение состояния системы на 10% за 10 часов эквивалентно 1 часу простоя. Проблема в том, что все обнаруживают и начинают принимать меры, когда система уже выходит из строя. А очень мало людей когда-либо замечают 10% ухудшение производительности системы”.

     Таким образом, проблемы обслуживания могут не обязательно неожиданно проявляться. Они могут подкрадываться незаметно и приводить к снижению производительности в разных системах, и стоить вам небольших расходов, но, в конечном итоге, это будет обходиться компании в значительные суммы денег. Хотя в большинстве дата-центров, наверное, не выполняется широкий научный анализ возникновения простоя с целью определения причин, которые привели к такому неприятному событию. Зачастую у администратора ЦОД хватает время только на резервирование и контроль. А довольно часто главной причиной возникновения простоя является недостаточное техническое обслуживание.

     Бен Киссел, директор отдела сервисных решений компании Emerson Network Power в подразделении Liebert Services уверен в том, что должным образом организованное техническое обслуживание позволяет избегать около трети простоев: “По нашим оценкам, 30-40% отключений систем, обусловленных отказами оборудования, можно предупреждать с помощью соответствующего профилактического обслуживания”.

Сколько стоит техническое обслуживание дата-центра?

Если техническое обслуживание не является составным элементом стратегии управления центром обработки данных, то одним из методов с помощью которого можно оценить стоимость ваших операций, состоит, во-первых, в вычислении ежегодной стоимости простоя вашего дата-центра и умножении полученных данных на 30% или 40% — это годовой показатель времени простоя, в которое обходится недостаточное техническое обслуживание. Представьте, что вы могли бы вложить эту сумму денег в техническое обслуживание. Скорее всего вы бы все равно окупили свои капиталовложения повышением эффективности функционирования ЦОД, не говоря уже о снижении вероятности возникновения простоя.

Оценка простоя ЦОД

Но если вам нужна быстрая и готовая оценка стоимости простоя, рассмотрите следующую информацию. “Опрос администраторов дата-центров 2011 года, проводившийся Ponemon Institute при финансовой поддержке компании Emerson Network Power, показал, что в среднем стоимость простоя дата-центра обходится приблизительно в 5600 долларов США в минуту”, сообщил Киссел. Если использовать “приведенный в исследовании случай среднего простоя длительностью 90 минут, средняя стоимость одного простоя обходится приблизительно в 505500 долларов США”. Если такое событие происходит два раз в год, получается приличная сумма денег, которую можно было бы вложить в техническое обслуживание, а не в лихорадочные действия по возобновлению работы ЦОД.

     Киссел также отметил, что “размер выгоды от вложения средств в регулярное обслуживание может зависеть от предприятия клиента, но одна только возможность предотвращения затрат на внеплановый простой может давать громадную финансовую выгоду. Дополнительно, профилактическое обслуживание позволяет избегать необходимости в аварийном ремонте, которое зачастую является очень дорогостоящим”. В число дополнительных затрат на аварийный ремонт входит обращение в сервисные центры во внерабочее время и ускоренная и, следовательно, более дорогая доставка запасных частей. Хотя иногда выполнение обслуживания может требовать приостановки работы дата-центра, возможность проведения запланированного простоя позволяет выполнять задачи обслуживания в то время, когда нагрузка на центр обработки данных является минимальной, например, поздно вечером или рано утром.

     Точные цифры, касающиеся стоимости простоя, стоимости обслуживания и окупаемости инвестиций в обслуживание будут зависеть от конфигурации и потребностей дата-центра. Например, в центре обработки данных, который использует технологии фрикулинга, будет меньше оборудования, требующего обслуживания, чем в ЦОД, который в основном использует более традиционные способы охлаждения, например, там, где используются блоки воздушного кондиционирования воздуха (CRAC). Но за редким исключением, в долгосрочной перспективе техническое обслуживание может быть более дешевым, чем простой и снижение эксплуатационной эффективности. Но если обслуживание оборудования (ИТ, охлаждения или электрораспределения) стоит слишком дорого, вам лучше будет заменить его, а не выполнять его техническое обслуживание.

Что требует технического обслуживания?

Одним словом — ВСЕ. Однако одним системам требуется меньше обслуживания, другим – больше. Например, в технической документации компании APC ”Preventive Maintenance Strategy for Data Centers”  (“Стратегия профилактического обслуживания дата-центров”), говорится, что, как правило, трансформаторы, распределительные блоки питания (PDU) и системы распределения воздуха и воды требуют мало обслуживания, тогда как такое оборудование как модули CRAC, системы пожаротушения, чиллеры и генераторы требуют высокого уровня обслуживания. Другое оборудование, типа систем бесперебойного питания следующего поколения источником бесперебойного питания (ИБП), могут требовать всего лишь среднего уровня обслуживания. Но все системы в ЦОД требуют того или иного уровня обслуживания. В равной мере применяется ко всем системам – серверам, системам хранения данных, сетевому и силовому оборудованию.

     В ряде дата-центров некоторые области, обычно, страдают от недостаточного внимания к техническому обслуживанию. Киссел выделяет несколько таких областей, включая коммутационное оборудование, автоматические выключатели, ATS (автоматический ввод резерва) и PDU, а также критические системы, например, ИБП, аккумуляторы и оборудования системы охлаждения, кондиционирования и вентиляции. Однако некоторые не столь очевидные тактические приемы позволяют быстро и легко обнаруживать проблемы в системах до того как они станут причиной простоя. Например, можно использовать термографию, основанную на методах инфракрасного сканирования, которая позволяет локализовать источники целого ряда проблем, согласно Кисселу.

     По его словам, используя методы инфракрасного сканирования можно обнаруживать места с необычно высокими температурами, которые могут быть причиной ухудшения состояния компонентов и ухудшения электрических соединений, обусловленного вибрацией, неправильным вращающим моментом и других скрытых проблем. Это позволяет администратору ЦОД обнаруживать и исправлять проблему до того как она станет проблемой доступности ИТ-оборудования.

Использование вычислительной гидродинамики (CFD)

Хотя это не может считаться процедурой технического обслуживания в строгом понимании этого слова вычислительная гидродинамика (CFD) может также быть полезным инструментом. Технология CFD позволяет администратору дата-центра с помощью соответствующего ПО, или с помощью стороннего провайдера сервиса моделировать воздушные потоки и распределение тепла в действующем центре обработки данных.

     С помощью этой информации можно выполнять соответствующее регулирование системы охлаждения, для того чтобы свести до минимума влияние «горячих точек» и других тепловых проблем, которые со временем могут вызывать повреждение оборудования и привести к остановке. Хотя метод CFD может быть дорогостоящим, поставщики сервисных услуг и программного обеспечения обычно предлагают разные опции операторам дата-центров, и CFD не обязательно должен быть “ежедневным” типом обслуживания. Данный метод можно рассматривать как один из методов оптимизации производительности. Про CDF можно прочитать статью Использование термодинамического моделирования (CFD) при проектировании и эксплуатации дата центров.

Есть много несложных процедур технического обслуживания

Несложные процедуры технического обслуживания позволяют предупреждать проблемы путем обращения внимания на некоторые, обычно пропускаемые области. Например, “такие общераспространенные проблемы как недостаток свободного места на дисках можно легко предупреждать, но зачастую именно они вызывают проблемы; в зависимости от места возникновения этой проблемы, она может приводить к остановке приложений”, — сообщил Даффи. В этом случае, такие меры как обычный мониторинг или периодические проверки свободного места на диске могут быть достаточными для предотвращения других серьезных проблем. Другими словами, не все аспекты обслуживания дата-центра могут быть сложными и дорогостоящими; иногда бывает достаточно коротких, регулярных проверок.

Приоритеты технического обслуживания

Даффи считает, что техобслуживание, в самом широком смысле этого слова, включая нагрузку и производительность, должно входить в число 3 главных приоритетов администратора дата-центра. Иными словами, оно должно иметь высокий приоритет. Конечно, администраторы дата-центров сталкиваются с множеством проблем, от согласования требований руководства и технического персонала до планирования и контролирования модернизации оборудования и повседневных операций. Тем не менее, несмотря на все эти обязанности, техническое обслуживание является одной из задач, которое не должно страдать – и при хорошо продуманной стратегии и графике выполнения задач техобслуживания, ему и не нужно будет страдать. Киссел дал широкое определение зон, на которые должен обращать внимание администратор дата-центра при планировании и выполнении задач техобслуживания:

  1. Аккумуляторы.
  2. ИБП.
  3. Силовые генераторы.
  4. Система охлаждения, кондиционирования и вентиляции.
  5. Силовое коммутационное оборудование, автоматические выключатели, ATS и PDU.
  6. Периодическое выполнение инфракрасного сканирования.

Советы для администраторов ЦОД по техническому обслуживанию

В приведенном ниже списке советов для администраторов дата-центров предлагается ряд соображений по созданию и реализации стратегии технического обслуживания дата-центра.

  • Тщательно определяйте цели программы техобслуживания. Наилучшим способом определения успешности стратегии является знание целей, которые необходимо достигнуть. Киссел отметил несколько потенциальных целей, в том числе сокращенное время внеплановых простоев, повышенная безопасность, улучшенное среднее время наработки на отказ и т.п.
  • Ведите документацию. Конечно, здесь можно легко перестараться, но обычно недостаточное документальное оформление может создавать больше проблем, чем слишком скрупулезное документирование. Имея в своем распоряжении готовую информацию по процедурам, историю и данные по техническому обслуживанию, метрические показатели и другие сведения, можно быть уверенным, что техобслуживание проводится регулярно и в соответствии с установленными протоколами. И в случае неожиданного простоя, записи с подробной информацией позволяют определить, что могло или не могло стать причиной проблем.
  • Обеспечивайте регулярность. Хотя не все процедуры техобслуживания необходимо проводить на регулярной основе, многие из них должны выполняться регулярно. В этих случаях, удостоверяйтесь в том, что процедуры действительно выполняются. Расписание может быть полезным, но только если вы его придерживаетесь. Несмотря на кажущуюся очевидность этого требования, следует обязательно выполнять регулярные процедуры технического обслуживания регулярно.
  • Используйте аутсорсинг. Администраторам дата-центров не обязательно внедрять стратегию техобслуживания без посторонней помощи. Обращайтесь за помощью, когда вам это необходимо, и принимайте предложения своей команды. По словам Даффи, следует работать в тесном сотрудничестве со службами поддержки инфраструктуры и приложений – они могут располагать сведениями о нагрузке и производительности, которые могут иметь непосредственное влияние на техобслуживание дата-центра. А иногда некоторые задачи технического обслуживания лучше всего выполнять с помощью сторонних лиц, которые имеют опыт в определенных областях, и который отсутствует у внутреннего персонала. Например, у вас растут цинковые наросты на плитках фальшпола. Если у вас нет опыта и оборудования, необходимого для решения этой проблемы, можно ухудшить ситуацию, пытаясь очистить плитки пола самостоятельно.
  • Закладывайте средства на техническое обслуживание ЦОД в ежегодном бюджете. Многие компании имеют сокращенные бюджеты на поддержание работы и функционирования ЦОД. Администраторы дата-центров должны объяснять руководству,  если это необходимо, важность регулярного технического обслуживания, а также необходимость выделения на него части бюджетных средств. Также, следует информировать руководство о выгодах технического обслуживания. Если руководство будет знать о полезности технического обслуживания, оно охотнее будут выделять средства для этих целей.
  • Создавайте опись оборудования и поддерживайте записи в актуальном состоянии. Нельзя выполнять техническое обслуживание, не зная, каким оборудованием вы располагаете. Идентифицируйте все оборудование в своем дата-центре, а также его период эксплуатации, производителей, размещение, условия и т.д. Опись может быть полезной даже не только для технического обслуживания, поэтому подумайте о ее создании и не забывайте ее обновлять. Лучше использовать специализированное программное обеспечение для поддержании описи оборудования в актуальном состоянии.
  • Назначайте приоритеты технического обслуживания. Некоторые задачи технического обслуживания могут быть более важными, чем другие. Назначая приоритеты. В некоторых случаях, процедура технического обслуживания может иметь приоритет над другими видами работ; в других случаях, процедуру технического обслуживания можно отложить.
  • Назначайте лиц, отвечающих за задачи технического обслуживания. Не каждая задача технического обслуживания может выполняться всеми членами персонала. Некоторые члены персонала могут быть более квалифицированными, чем другие, для выполнения определенных задач. Поэтому, перед началом технического обслуживания, следует назначать лиц, которые могут или должны выполнять данную задачу, будь то внутренний персонал или сторонняя сервисная компания. Также, следует определять состав применяемого оборудования, необходимое обучение и правила техники безопасности.
  • Ставьте безопасность на первое место. Электричество повсюду в дата-центре, и много других опасностей для жизни и здоровья персонала. Обеспечивайте ознакомление персонала дата-центра с правилами техники безопасности при выполнении задач технического обслуживания.
  • Устанавливайте стандарты чистоты. Конечно, может казаться, что дата-центр работает довольно хорошо, даже если в коридорах между стойками валяется хлам, но могут возникать невидимые проблемы. Помимо создания далеко не оптимальной атмосферы, отсутствие чистоты может препятствовать воздушному потоку, образуя зоны перегрева, и создавать угрозы безопасности. Стерильная чистота может и не требоваться в ЦОД, но нагромождение мебели в дата-центре категорически запрещается.
  • Не бойтесь поручать техническое обслуживание сторонним организациям. Хотя это уже косвенно упоминалось выше, не следует надеяться на то, что все задачи технического обслуживания могут быть выполнены силами внутреннего персонала. Можно сэкономить немного денег, поручая выполнение работы заслуживающему доверия сотруднику вместо привлечения сторонней организации, но долгосрочные затраты, связанные с этим подходом могут, в некоторых случаях, превышать краткосрочные затраты на привлечение сторонней организации для выполнения этой задачи.
  • Проверяйте спецификации. Хотя это не всегда так, зачастую производитель довольно хорошо знает, как обращаться с данным оборудованием и как его обслуживать. Однако, независимо от этого, гарантии могут становиться недействительными, если вы не будет соблюдать рекомендованные производителем процедуры технического обслуживания и эксплуатации. Поэтому, сверяйтесь с рекомендациями производителя и включайте их в свой план технического обслуживания.

Выводы

При том, что недостаточное внимание к техническому обслуживанию считается основной причиной одной трети или половины простоев в дата-центре, кто может позволить себе его игнорировать? Часто техническое обслуживание оборудования может казаться нудным и иногда бесцельным занятием, и, наверное, его регулярное выполнение не заслужит вам большого признания. К сожалению, руководство не может видеть потенциальные простои, которые были предотвращены героическими усилиями оператора дата-центра в области технического обслуживания; однако, они очень хорошо видят реальные простои. Тем не менее, регулярное, всестороннее техническое обслуживание позволяет также повышать эффективность систем дата-центра, и получаемые им выгоды не ограничиваются такими факторами как уменьшением усилий  и снижением затрат, связанными с дата-центром, в котором происходит меньшее число внеплановых простоев. Выгоды от вложения средств в техническое обслуживание вполне стоят затрат.

     Оригинал статьи по ссылке: http://www.datacenterjournal.com/it/you-cant-afford-to-ignore-data-center-maintenance/


Поделиться информацией

Вы можете послать эту статью или новость коллеге или знакомому по email со своим комментарием, пригласить обсудить ее. Просто нажмите на иконку конверта --->


Сообщения, вопросы и ответы

Вы можете задать вопрос, написать комментарий, обсудить данную новость или статью.

Ваше сообщение (вопрос, ответ, комментарий)

  1. Alexey Zhumykin 28.08.2012 в 11:53

    Часто, читая такие статьи, я задаюсь вопросом: зачем ее написали? Ведь рассказываются очевидные вещи. Но затем я вспоминаю вопросы коллег, с которыми приходится встречаться на семинарах, форумах, тренингах, и понимаю, что даже такая базовая информация сейчас очень востребована и имеет своих читателей. В качестве комментария, внесу и свою лепту в обсуждаемую тему:

    Обучайте. Помимо получения требуемых групп допуска и сертификатов, инвестируйте в обучение команды. Именно от ваших людей будет зависеть, какие действия будут предприняты во внештатных ситуациях. Разумеется, вы предпочтете дежурного, способного хладнокровно и быстро принять правильное решение.

    Участвуйте. Команда оперативно-ремонтного персонала должна принимать участие в пуско-наладке систем ЦОД. На этом этапе можно безболезненно поиграться переключателями и режимами аппаратуры, посмотреть, как она поведет себя в различных ситуациях. Можно задавать, на первый взгляд, глупые вопросы монтажникам и уточнить, где описана то или иная характеристика аппаратуры.

    Считайте. На основании документов поставщиков легче всего провести инвентаризацию системы, а затем поддерживать ее в порядке при покупке или выведении из эксплуатации единиц оборудования. Помните, что технические и финансовые документы должны совпадать! Это сбережет вам немало сил и нервов в дальнейшем.

    Документируйте. Выделите для инженерного состава неделю - две для написания календарного плана ТО всех систем. Это время несколько раз окупится. Кроме того, как результат пуско-наладки у вас должны остаться инструкции по эксплуатации всех единиц оборудования ЦОД, на основании которых нужно составить рабочие инструкции по обслуживанию. Отдельной строкой отметим инструкции по охране труда, пожарной безопасности и т.д.

    Предупреждайте. Закладывайте отдельные контракты на техническое обслуживание и аварийный ремонт. Специалисты поставщика, находящиеся в столице, лучше всех смогут провести ТО вашего дорогого оборудования, расположенного, например, в Новосибирске. Но можно ли на них рассчитывать в случае аварийной ситуации.

    Запасайте. По этой же причине включите в бюджет, приобретите и положите на склад расширенный ЗИП самых критичных частей вашей системы. Не пренебрегайте мелочами. В моем опыте в трех разных компаниях непредвиденной проблемой явилось отключение воды в туалетах. Можете представить, насколько эффективно может работать специалист, стремящийся посетить туалет, и знающий, что несколько часов это будет невозможно. Два-три аварийных торфяных спасут ситуацию.

    Мыслите нестандартно. В качестве примера вспоминаю случай, когда при монтаже фальшпола не хватило хомутов, крепящих поперечины к стойкам. Срок поставки оригинальных был около 10 недель. В качестве замены идеально подошел хомут крепления выхлопной трубы классических жигулей, по цене, кстати, в несколько раз ниже.

    Измеряйте. Чтобы работать долго и эффективно, оборудование должно работать в требуемых условиях (температура, влажность, коэффициент загрузки). С другой стороны, не стоит переусердствовать. Количество измеряемых данных должно быть достаточным, но не избыточным, чтобы не потонуть в потоке информации.

    Оптимизируйте. на основании измерений легче изменить конфигурацию системы: отключить неиспользуемые кондиционеры, перераспределить нагрузку на фазах, выключить свет в комнатах, где никто не появляется месяцами...

    Нанимайте. Попробуйте изначально поставить задачу обеспечения 100% технического обслуживания силами сторонних организаций. Это позволит сконцентрироваться на решении более ответственных задач в ЦОД, посмотреть, как ТО выплняется профессионалами, в конце концов, получить скидку на больший объем работ по контракту.

    • Дмитрий Мацкевич 28.08.2012 в 16:10

      Uptime Institute проводит сертификацию работающих ЦОД по уровням операционной устойчивости и он на все перечисленные пункты обращает внимание при проверке ЦОД.

      Можно еще добавить

      Планируйте — чтобы знать, когда и что требует поддержки или замены.

      Чтобы не столкнуться с отказом оборудования, выработавшего свой срок.

      Или проводить работы не во время, когда нагрузка близка к N.

      Используйте маркировку всего чего можно, чтобы потом можно было определить о каком конкретном устройстве была сделана запись.

      Обращайте внимание на мелочи — появился какой-то посторонний шум, которого не было ранее, стук.

      Анализируйте собранную информацию — мало ее собрать, посмотрите что произошло со временем работы. Например, увеличилась скорость вентиляторов при тех же условиях...