Увеличение температуры в дата-центрах

В современном ЦОД охлаждение является единственной и самой большой нагрузкой, которая не связана с ИТ оборудованием. Есть много передовых решений для снижения потерь мощности в системах охлаждения. Многие из этих передовых систем работают хорошо, а другие имеют большой потенциал, но ни одна из них не может сравниться по своей эффективной с таким простым решением как повышение температуры на входе серверов. Конечно, чем меньше охлаждение, тем меньше затраты на эту систему. Чем выше температура на входе серверов, тем больше доля времени, в течение которого для охлаждения дата-центра можно будет использовать наружный воздух (воздушный экономайзер) вместо механических систем охлаждения.

     Есть негативные стороны повышения температуры: 1) высокие потери на утечку в полупроводниках 2) более высокая частота оборотов серверных вентиляторов, которая увеличивает потери на перемещение воздуха 3) более высокий уровень выхода из строя серверов. Я измерял первые и, хотя эти потери, бесспорно, присутствуют, они являются измеримыми, но имеют очень небольшое воздействие на работу сервера даже при довольно высокой температуре на входе. Отрицательное воздействие увеличения частоты оборотов вентилятора является реальным, но его можно ослабить с помощью разных целевых температур сервера и более эффективных систем охлаждения серверов. Если сервер рассчитан на более высокие температуры на входе, вентиляторы должны быть настроены на более высокие температуры и не должны работать с более высоким числом оборотов. Просто конструктивное решение сервера и хорошие механические конструктивные решения неплохо работают при более высоких температурах на входе сервера, и при этом не приводят к повышению расхода электрической энергии.

     Пугающей остается именно третья проблема: увеличение частоты поломки серверов. Страх повышения уровня отказов серверов является главным фактором, замедляющим повышение температуры в центре обработки данных. Согласно часто цитируемым отчетам одного исследования, частота отказов электронного оборудования увеличивается вдвое при повышении температуры на 10°C (MIL-HDBK 217F). Эти данные чрезвычайно широко используются в военных программах, космических программах NASA, а также в проектировании стандартного электронного оборудования. Я не сомневаюсь в достоинствах этой работы, но это очень старое исследование и, кроме того, оно не было ориентировано на большие дата-центры, и практическим выводом из этого является линейное увеличение числа отказов при повышении температуры.

     В недавнем исследовании была выполнена отличная работа по методичному выявлению возможных проблем повышения температуры в ЦОД и тщательному изучению каждой из этих проблем. Мне нравится следующее исследование (Temperature Management in Data Centers: Why Some (Might) Like it Hot) по двум причинам: 1) в ней беспристрастно разбираются ключевые вопросы и проблемы 2) в ней за образец взяты 7 дата-центров Google, поэтому результаты могут заслуживать доверия.

     Интересно, что один из главных аспектов управления температурой в дата-центре все еще хорошо не понят: это регулирование заданного значения температуры, при которой должна работать система охлаждения дата-центра. Дата-центры, как правило, работают в диапазоне температур от 20°C до 22°C, а некоторые работают при очень низкой температуре 13 градусов Цельсия [8, 29]. Из-за отсутствия научных данных эти значения часто выбирают, основываясь на консервативных рекомендациях производителей оборудования. По некоторым расчетам, увеличение заданного значения температуры всего лишь на один градус позволяет снижать расход электроэнергии на 2-5% [8, 9]. По данным Майкрософт, повышение температуры на 2-4 градуса в одном из ее ЦОД, расположенных в Силиконовой долине, позволяло ежегодно экономить 250000 долларов США [29]. Google и Facebook также рассматривали идею повышения температуры в своих дата-центрах [29].

     Авторы продолжают говорить, что “характер воздействия повышения температуры в дата-центре на надежность оборудования пока не понятен и существующие доказательства носят противоречивый характер”. Остальная часть работы представляет данные, полученные в результате измерений в 7 исследовавшихся ЦОД, и в конце каждого раздела дается вывод. Я советую прочитать эту работу, а здесь я привожу только выводы:

     Наблюдение 1: в статистически значимом диапазоне температур (< 50C), частота появления ошибок в скрытом разделе диска растет намного медленнее с температурой, чем это прогнозируется моделями надежности. Половина наших пар ‘модель/дата-центр’ не проявляют никаких признаков увеличения, тогда как в других парах это увеличение носит скорее линейный, чем экспоненциальный характер.

     Наблюдение 2: обычно вариабельность температуры может оказывать более выраженное и стойкое воздействие на частоту появления ошибок в скрытом разделе диска, по сравнению с обычной средней температурой.

     Наблюдение 3: более высокие температуры не вызывают увеличения ожидаемого числа ошибок в скрытом разделе диска (LSE), если LSE появляются на диске, что может указывать на то, что механизмы, которые вызывают LSE являются одинаковыми при высоких и низких температурах.

     Наблюдение 4: в пределах 3 лет вероятность появления ошибок в скрытом разделе на более старых дисках не больше, чем на более новых дисках.

     Наблюдение 5: высокий коэффициент использования не вызывает увеличения частоты ошибок в скрытом разделе диска при повышении температуры.

     Наблюдение 6: при температурах ниже 50°C, частота отказов дискового накопителя растет медленнее вместе с температурой, чем это прогнозировалось общими моделями. Обычно, это увеличение носит скорее линейный, чем экспоненциальный характер, и ожидаемое увеличение числа отказов при повышении температуры на один градус является небольшим, по сравнению с величиной существующих уровней отказов.

     Наблюдение 7: ни коэффициент использования, ни срок службы дискового накопителя не оказывают существенного воздействия на частоту его поломок, обусловленную температурой.

     Наблюдение 8: мы не заметили никаких признаков увеличения частоты появления неисправимых ошибок DRAM, замены модулей DRAM DIMM или отключений узлов, вызванных температурными проблемами DRAM (в пределах диапазона температуры, включаемого нашими данными).

     Наблюдение 9: мы не заметили никаких признаков того, что узлы с более высокой температурой имеют более высокие уровни отключения узлов, простоя узлов или замены оборудования, чем узлы с более низкой температурой.

     Наблюдение 10: мы обнаружили, что высокий уровень непостоянства температуры, по-видимому, имеет более сильное воздействие на надежность узла, чем средняя температура.

     Наблюдение 11: при повышении температуры окружающей среды, связанный с этим рост потребления электрической энергии будет значительным и может быть связан главным образом с электропотреблением вентиляторов. Для сравнения, мощность утечки является пренебрежительно малой.

     Наблюдение 12: интеллектуальное управление частотой оборотов серверных вентиляторов является обязательным условием повышения температуры в дата-центрах. Значительную долю наблюдавшегося во время наших экспериментов рассеяния мощности можно было бы избежать с помощью использования более сложных алгоритмов управления частотой оборотов вентиляторов.

     Наблюдение 13: степень непостоянства температуры узлов является удивительно похожей во всех дата-центрах нашего исследования. Как правило, самая высокая температура 5% узлов на более чем на 5°C выше, чем температура стандартного узла, тогда как самая высокая температура 1% узлов обычно выше более чем на 8–10°C.

     Ссылка на исследование: http://www.cs.toronto.edu/~nosayba/temperature_cam.pdf

      Другие источники о повышении температуры в ЦОД:

 

Автор статьи: James Hamilton,  член команды Amazon Web Services.

Статья опубликована с разрешения автора.

Оригинал статьи находится: http://perspectives.mvdirona.com/2012/05/28/TempratureManagementInDataCenters.aspx

Блог James Hamilton: http://perspectives.mvdirona.com


Поделиться информацией

Вы можете послать эту статью или новость коллеге или знакомому по email со своим комментарием, пригласить обсудить ее. Просто нажмите на иконку конверта --->  


Сообщения, вопросы и ответы

Вы можете задать вопрос, написать комментарий, обсудить данную новость или статью.

Ваш ответ на сообщение выше

  1. Алексей Жумыкин 29.08.2012 в 10:44

    Справедливости ради отметим, что крупные игроки рынка не используют готовые серверы, но проектируют свои собственные, под заданные параметры окружающей среды. В коммерческих ЦОД повышение температуры машинного зала теоретически может стать причиной отказа от гарантииных обязательств поставщиков оборудования. Температура в серверной должна поддерживаться такой, какой она указана в SLA. В случае собственного ЦОД описанные эксперименты, конечно, приветствуются, но остаются на совести и под ответственностью технического директора.

    • Дмитрий Мацкевич 30.08.2012 в 22:54

      Коммерческий дата центр, который предоставляет услуги коллокейшн не будет повышать температуру. А вот был я в коммерческом дата центре в Англии, которые нарезает виртуальные машины и оказывает хостинг услуги и у них в холодном коридоре было явно за 30 градусов. Стоимость электроэнергии высокая у них. И об этом те, кто берут у них услуги уверен даже не догадываются об этом.

      Ну а свои сервера, естественно, затачиваются под те условия, которые запланированы.