Анализ энергопотребления и производительности серверов в условиях высоких температур – исследование компании MicroSoft и Intel

Расширение рабочего температурного диапазона ИТ-оборудования (ITE) может обеспечивать значительную экономию капитальных и эксплуатационных затрат, связанных с инфраструктурой охлаждения. Существующие стандарты и рекомендации могут предоставлять соответствующую основу для оценки производительности, надежности и других факторов во время работы в условиях приближенных к предписанным диапазонам температуры атмосферного воздуха. В этой работе описаны результаты исследования, в котором показано как, в определенных условиях нагрузки, система на базе процессора Intel® Xeon®, рассчитанная на условия класса A2, определяемые Американским обществом инженеров по системам отопления, охлаждения и кондиционирования воздуха (ASHRAE) может приспосабливаться к условиям класса A4 или стандарта 3.1E, определяемого Европейским институтом стандартов связи (ETSI).

     Исследование, которое проводилось компаниями Майкрософт и Intel, показало методы описания сервера для определения его соответствия на основе нормальной температуры окружающего воздуха и производительности при соблюдении ограничений по электропотреблению и температуре. В нем также обобщены другие проблемы, которые необходимо учитывать в контексте работы в условиях предельных значений климатического диапазона, указанного для данной системы.

     Создание серверных систем, которые рабочая температура, которых превышает нормальной температуры окружающей среды, позволит заложить основы для замены чиллеров технологиями фрикулинга в ЦОД. Здесь также рассматриваются и другие конструктивные улучшения, связанные с отказом от использования водяного адиабатического охлаждения и использования только атмосферного воздуха для охлаждения, что позволяет уменьшать сложность и совокупную стоимость владения (TCO) дата-центра.

     Результаты этого исследования могут не обязательно походить для всех условий, и в нем также не рассматриваются проблемы надежности, связанные с работой за пределами условий класса A2.

Сервер для работы при высоких температурах

Использование технологий фрикулинга в дата-центрах может приводить к воздействию более широкого диапазона температур на ИТ-оборудование, которое обычно рассчитывается на максимальную температуру в воздухозаборном отверстии (сервера) 35°C (95°F). Хотя Майкрософт показала, что технологии фрикулинга вполне можно использовать в ЦОД, расположенных в определенных климатических условиях, например, в Дублине, Ирландия, в очень небольшом числе населенных мест в мире температура целый год не поднимается выше этой температуры. В этой работе продемонстрировано как хорошо спроектированный сервер может поддерживать повышение температуры до 45°C (113°F), при удовлетворении целевых условий использования для специфической системы.

     Одним из условий работы при повышенных температурах является улучшение конструкции сервера с воздушным охлаждением с помощью применения улучшенных теплоотводов и повышенного расхода воздуха. Хотя улучшение конструкции для повышения эффективности зачастую является правильным выбором, расчет параметров ИТ-оборудования для полной производительности при 45°C может приводить к понижению общей эффективности, требуя большего места для размещения оборудования и обеспечения электроэнергии, которая будет использоваться только во время самого жаркого периода в году в связи с повышением расхода воздуха и электропотребления серверов. Если предельные температуры держатся только в течение нескольких часов, разумно допускать некоторое небольшое понижение производительности в самое жаркое время в году для достижения высокой эффективности в остальную часть года. Этот подход также может быть выгодным в отношении затрат на серверы, устраняя необходимость в приобретении дополнительного охлаждающего оборудования для сервера, которое позволяет постоянно работать при высоких температурах.

     Хотя экономичный ЦОД должен поддерживать возможность работы при температурах выше 35°C, эти отклонения температуры происходят только в течение нескольких часов в году, даже в жарких климатах, как видно из Рис. 1.2.

Рис 1. Низкая вероятность превышения температуры 35°C

     Для поддержки этой модели эксплуатации, нужно знать подходящие климатические классы, соответствующие техническим параметрам и гарантийным обязательствам производителей ИТ-оборудования. В 2011 году ASHRAE ввела 2 новых класса — A3 и A4, показанных на Рис. 2, — которые открывают новые возможности для дата-центров, работающих с высоким уровнем экономичности, и определяют рассчитанное на них ITE. Были существенно расширены диапазоны температуры и относительной влажности, что дает возможность сокращения капитальных и эксплуатационных затрат в зависимости от климата.

     ASHRAE предоставляет руководство по расчету надежности ИТ-оборудования в индивидуальном дата-центре, основанному на времени работы в различных климатических условиях. С помощью расчета средневзвешенной по времени температуры в дата-центре в течение данного интересующего времени, можно вывести приблизительный коэффициент для базовой частоты отказов ИТ-оборудования в дата-центре. Тем не менее, ASHRAE не рекомендует работу при высоких температурах, и гарантийные требования производителя ИТ-оборудования могут также это не поддерживать.

     ETSI ввела стандарт, который включает возможность работы при температуре до 45°C в течение ограниченных периодов времени, проиллюстрированный данными, показанными на Рис. 2. Этот стандарт применяется к телекоммуникационному оборудованию, в противоположность рекомендациям ASHRAE, которые ориентированы на ИТ-оборудование в целом. Стандарт ETSI предлагает одну модель проектирования ИТ-оборудования, но не определяет производительности, требуемой в этих условиях. Во всяком случае, в будущем это может пригодиться производителю ИТ-оборудования для приведения оборудования в соответствие с этими климатическими условиями с целью обеспечения его широкого использования, и спецификация ETSI предлагает модель, основанную на времени работы в данном состоянии.

Рис. 2. Классы Американского общества инженеров систем отопления, охлаждения и кондиционирования воздуха (ASHRAE) и спецификация Европейского института стандартов связи (ETSI)

 Требование производительности основанное на специфическом эталоне

Крупные Интернет-сервисы, которые требовательны к ресурсам процессора и памяти, обычно работают в расширяемых серверных центрах. Такие сервисы работают по особому соглашению об уровне обслуживания (SLA). Однако, в связи с расширяемым характером системы, крайне редко все серверы одновременно подвергаются максимальной нагрузке, и, следовательно, не все серверы имеют одинаковую нагрузку.

     Это предоставляет возможность оптимизации эксплуатационных ограничений, основанной на этой модели использования. В случае таких больших Интернет-сервисов, если вам удается достигнуть значительной выгоды в отношении рентабельности дата-центра (операции и расширение), вы можете отказаться от особого SLA в пользу оптимальной работы, и добиться улучшения общей производительности и TCO.

     В следующем разделе рассматривается эффективность расширений ЦОД, основанная на соразмерении производительности. Для оценки преимуществ соразмерения мощности и предполагаемой нагрузки на машине системы подвергались испытаниям в предложенных конфигурациях серверов. Результаты сравнения нагрузки и мощности, полученные в ходе проведения таких эталонных испытаний, можно использовать для определения оптимальных параметров ЦОД.

Рис. 3. Кривая зависимости нагрузки от мощности для SPECpower*

     На Рис. 3 показан пример кривой зависимости нагрузки от мощности для специфических точек, составляющих рабочую нагрузку SPECpower* для тестируемого сервера. При понижении нагрузки, мощность снижается до перехода сервера в режим ожидания. Уменьшение коэффициента использования может влиять на мощность, а это в свою очередь будет влиять на температуру компонентов сервера. Остальная часть этой работы касается использования набора стандартных тестов SPECpower для изучения компромиссного соотношения производительности и мощности, связанных с рассматриваемой методологией.

Соотношение мощности и количества серверов

Для обеспечения оптимальной эффективности решения дата-центра необходимо использовать всю имеющуюся мощность. Отраслевой показатель затрат на строительство ЦОД составляет миллионы долларов США из расчета за мегаватт ($M/MW). Если гипотетический дата-центр использует всего лишь 50% общей мощности, истинная стоимость удваивается (1/0.50). Как правило, поставщики облачных сервисов соразмеряют ИТ-нагрузки с мощностью ЦОД, и добавляют серверы до тех пор, пока не будет достигнута эта мощность.

     Мощность ИТ-оборудования определяется из расчета работы системы в самых худших условиях. Этот аспект определения мощности является очень важным, поскольку фактическая мощность в самых худших условиях, как правило, намного ниже паспортной мощности оборудования, поскольку она учитывает изменения конфигурации и фактическое использование системы, и включает эффективность источника питания в реальных рабочих условиях. Этот фактор обеспечивает очень высокий коэффициент использования мощности ЦОД. Это также требует от пользователей оборудования расчета энергопотребления при каждом изменении состава оборудования или ПО, установленного на серверах.

     В Таблице 1 приведены сравнительные данные по гипотетическому дата-центру мощностью 1 МВт, заполненного серверами одного типа с профилем энергопотребления, показанным на Рис. 3. Как видно из Таблицы 1, если дата-центр рассчитывается для работы серверов при максимальной мощности, определяемой стандартом SPECpower, можно устанавливать 3703 сервера. Но если мощность системы никогда не будет превышать 225 Вт при 70-процентном использовании, данный ЦОД сможет вместить 4444 сервера. Общая производительность решения увеличится на 20%, по сравнению с режимом работы при максимальной мощности 270 ватт (SPECpower).

     На Рис. 3 показаны уровни мощности при номинальной температуре. Если сервер будет работать при 45° C с полной производительностью, вентиляторы и кремниевые элементы будут потреблять больше энергии. Этот подход требует использования еще больших уровней мощности из расчета на сервер при вычислении производительности дата-центра. С помощью метода ограничения мощности при более высоких температурах можно снижать требования мощности из расчета на сервер, что позволяет размещать больше серверов в ЦОД, пока пониженная производительность и надежность при высоких температурах будет приемлемой.

Таблица 1. Зависимость повышения производительности сервера от его электропотребления

     В следующих разделах дано количественное выражение метода измерения уровня снижения производительности. Для определения влияния на надежность необходимо дополнительное исследование.

Рецепт поддержки модели применения

Будущие климатические требования Майкрософт, которые основаны на климате, вполне соответствуют спецификации ETSI, которая ограничивает время работы при температуре выше 35°C, но требует поддержки температуры до 45°C как минимум в течение нескольких дней в году. Следовательно, возможность работы при 45°C была выбрана в качестве критерия высокой температуры в этом исследовании. Вычисление производительности при рабочей нагрузке Майкрософт во время периодов, когда температура выше 35°C, позволяет Майкрософт определять возможность оптимизации TCO на основе ранее описанных показателей.

     Сервер, выбранный для этой модели применения, все же должен удовлетворять всем температурным условиям, что может приводить к повышению требований для производителя ИТ-оборудования. Для определения соответствия тепловых характеристик все же необходим полный расчет термической стойкости. Однако, также важно учитывать возможность поддержки повышенной температуры окружающей среды без неоправданного повышения стоимости сервера или потребления слишком большого количества энергии.

     Определяя рабочие нагрузки, производители ИТ-оборудования могут настраивать системы терморегулирования для обеспечения поддержки сервером этой модели. С помощью таких механизмов ограничения расхода энергии как режимы энергопотребления процессора и ограничение температуры памяти производители ИТ-оборудования могут определять и настраивать терморегулирование сервера, включая регулирование скорости вентилятора, для обеспечения тепловых характеристик, требуемых для удовлетворения плановых показателей. В сущности, сервер должен быть способным работать в условиях класса A4, но может не поддерживать расчетную производительность характерную для такого сервера. В этом отношении, он обозначается как «настроенный под рабочую нагрузку» сервер способный работать в условиях класса A4 в течение коротких периодов времени.

     При выборе сервера для работы при повышенных температурах необходимо тщательно рассматривать его базовые технические характеристики и компоненты. Некоторые модели процессоров лучше подходят для использования в условиях повышенных температур и почти не снижают своей производительности ни при какой нагрузке.

     Один возможно парадоксальный аспект системного проектирования заключается в том, что большее число модулей DIMM может быть легче охлаждать, чем меньшее число модулей DIMM. Существование этой взаимозависимости связано с тем, что большее число модулей DIMM меньшей емкости связано с более низкими уровнями мощности на модуль DIMM и более низкими температурами DRAM при эквивалентной рабочей нагрузке. Однако, большее число модулей DIMMs меньшей емкости может суммарно потреблять больше энергии, чем меньшее число модулей DIMMs большей емкости, и тем самым еще больше снижать общую производительность сервера. Эти взаимосвязи показывают, что оптимизация конфигураций памяти не может быть достигнута с помощью простых формул, и в ходе этого процесса лучше консультироваться с производителями ИТ-оборудования.

     Определение оптимальных тепловых характеристик для самого сервера требует принятия компромиссных решений, которые включают оптимальную конструкцию теплоотвода, а также топологию платы и системы. Сервер, который настроен на устранение тепловой маскировки, как правило, будет легче охлаждать – и его вентиляторы будут потреблять меньше энергии – чем аналогичный сервер с такими же самыми функциями и конфигурацией, который имеет температурно замаскированные компоненты. Испытания показали, что надежность жестких дисков (HDD) снижается при повышении температуры. Обычно рекомендуется размещать HDD в местах притока свежего воздуха.

     Еще больше возможностей существует на конструктивном уровне в отношении снижения плотности с помощью использования больших форм-факторов, например 1.5U вместо 1U. Эти форм-факторы позволяют использовать теплоотводы большего размера и улучшать вентиляцию, и тем самым повышать возможности работы при повышенных температурах окружающей среды.

Условия и протокол испытаний

Испытания проводились на сервере, который был рассчитан для поддержки условий ASHRAE Class A2, и описан в Таблице 2. Для создания тестовой температуры в воздухозаборном отверстии сервера использовалась камера с регулируемыми характеристиками внешней среды, и термопары устанавливались на ключевых компонентах сервера и в других необходимых местах.

Таблица 2. Конфигурация тестируемого сервера

     Использовавшийся во время испытаний набор тестов SPECpower был изменен, и при каждой нагрузке тесты выполнялись в течение 20 минут вместо стандартных четырех минут. Это изменение позволяло компонентам стабилизироваться при данной температуре окружающей среды. Выполнение эталонных тестов, сбор данных, а также регулирование температуры в воздухозаборном отверстии сервера – все эти действия были полностью автоматизированы. Для ограничения электропотребления использовалось решение Intel® Data Center Manager (Intel® DCM).

     Для обеспечения температурной стабилизации все вентиляторы системы настраивались для работы в определенных скоростных режимах и постоянных условиях, и встроенному управляющему ПО сервера не разрешалось автоматически регулировать скорость вентиляторов. Для регулирования вентиляторов сервера применялся метод широтно-импульсной модуляции (ШИМ). Скорости вентиляторов были приближенно линейными с производительностью ШИМ-регулятора и тестировалась при 34% (приближенное рекомендованное значение, основанное на расчетной тепловой нагрузке (TDP) для самых худших условий ASHRAE Class A2 для тестировавшейся конфигурации), 41% (+20% базового уровня), и 48% (+40% базового уровня). Intel DCM использовалось для определения предела ограничения электропотребления сервера, для того чтобы проанализировать его производительность.

Результаты

Характеристики мощности и производительности определялись на основе данных, (см. Рис. 4), полученных для одной комбинации температуры окружающего воздуха и скорости вентилятора. С помощью этих характеристик и характеристик, полученных при других комбинациях скорости вентиляторов и температуры окружающего воздуха, характеристики мощности и производительности можно определять для любых заданных условий применения процессора.

Рис. 4. Оценка производительности

 

     Потом требования производительности Майкрософт можно сопоставить с производительностью, мощностью и окружающей температурой сервера. На Рис. 5 показан пример этого метода, основанного на ограничении мощности 285 Вт. Когда температура окружающего воздуха поднимается выше 35°C, производительность в перерасчете на относительную производительность стандарта SPECpower падает до 90% максимальной мощности, соответствующей мощности дата-центра, приравненного к одному серверу. Система управления энергопотреблением, типа Intel® Intelligent Node Manager, может обеспечивать эту возможность ограничения энергопотребления. В случае тестируемой системы, только при температуре 50°C было превышено пороговое значение температуры одного из компонентов. Однако, этим компонентом был сам процессор, который изменяет режим энергопотребления на основе предельных значений температуры, и тем самым обеспечивает постоянную производительность в пределах требований Майкрософт. Поскольку системы редко работают при максимальном значении мощности или значении, которое выше 90% максимальной мощности, система ограничения расхода энергии сервера будет ниже номинального расчетного значения и не будет снижать частоту процессора или влиять на производительность системы.

Рис. 5. Зависимость производительности в рамках предельных значений мощности от температуры в воздухозаборнике системы

 

     В описанных в этой работе тестах использовался сервер ASHRAE класса A2. Производитель оборудования должен рассчитывать и одобрять эксплуатацию сервера за пределами установленного диапазона; иначе, оператор ЦОД должен будет принимать дополнительный риск. Характеристики тестировавшегося сервера были хорошо известны, и, в результате, было известно, что даже неконтролируемые компоненты не выходили за пределы технических требований, основанных на расчетных случаях. Условия использования процессора также не выходили за пределы допустимых отклонений. Местоположения, в которых отклонения могут быть более длительными, например, в пустынях юго-запада США, могут не входить в спецификацию годовых отклонений процессора, и не поддерживаться в связи с возможным влиянием на долгосрочную надежность.

Заключение

Было признано, что методология, в которой применяется технология ограничения мощности позволяет серверу, рассчитанному на условия класса ASHRAE A2, отвечать требованиям производительности системы, работающей в масштабе реального времени в условиях класса ASHRAE A4 в течение коротких периодов времени. Согласно этой методологии, в ЦОД можно размещать больше серверов и тем самым улучшать TCO. Функция ограничения мощности гарантирует удовлетворение тепловых характеристик в пределах максимальной мощности.

     Дата-центр, в котором применяются технологии фрикулинга, и который поддерживает работу при повышенных температурах, позволяет снижать капитальные затраты на ЦОД путем устранения необходимости в адиабатическом или механическом охлаждении. Будет иметь место небольшое снижение производительности во время высоких отклонений температуры окружающего воздуха. Повышение мощности и степень ухудшения производительности можно заранее моделировать с помощью обзора климатических данных и подстройки параметров в соответствии с требованиями бизнеса пользователей ЦОД. В оперативном отношении, потенциальное ухудшение производительности можно предугадывать и устранять проблему соответствующим образом, следя за ежедневными сводками погоды.

     Операторы ЦОД, которые еще не начали рассматривать описанные в этой работе темы, могут подвергать риску свою конкурентоспособность. Описанная здесь альтернатива показывает возможный способ повышения эффективности и сокращения расхода воды и хладагентов в ЦОД, и в то же время балансирования мощности и производительности. Для полноты анализа нужно провести дополнительное исследование для выяснения влияния повышенных температур на надежность.

     Оригинал статьи находится здесь: http://www.intel.ru/content/dam/www/public/us/en/documents/white-papers/data-center-server-cooling-power-management-paper.pdf


Поделиться информацией

Вы можете послать эту статью или новость коллеге или знакомому по email со своим комментарием, пригласить обсудить ее. Просто нажмите на иконку конверта --->


Сообщения, вопросы и ответы

Вы можете задать вопрос, написать комментарий, обсудить данную новость или статью.

Ваше сообщение (вопрос, ответ, комментарий)