Оценка выделения электрической мощности и пути снижения потребления электроэнергии серверами

Большинство операторов ЦОД берут критическую мощность, общую мощность доступную для дата-центра, вычитают из нее затраты на работу системы охлаждения и потери на распределение электроэнергии, а затем уменьшают полученный результат, по крайней мере, на 10-20% для защиты от риска превышения максимального допустимого значения, что может приводить к перерасходу или потерям энергии. Серверы рассчитываются на этот пониженный уровень критической мощности.

     Главная проблема состоит в том, что почти ни один ЦОД никогда не работает на полную мощность или даже на 50% своей мощности, но это уже тема другого обсуждения. Потому что нет 100% вероятности того, что все серверы будут одновременно работать при полной нагрузке. И, при некоторой разновременности рабочих нагрузок, даже в случае если нагрузка некоторых сервисов будет достигать 100%, мы часто основываемся на факте, что пиковые нагрузки несхожих сервисов не являются одновременными. С учетом этого, можно использовать большее количество серверов. Именно такой подход используют авиакомпании при продаже билетов. Авиакомпании должны будут предложить бесплатный билет на Гавайи, если вдруг окажется, что мест на самолет нет. В ЦОД нужен будет такой же предохранительный клапан. Вот некоторые эквиваленты бесплатного билета на Гавайи в дата-центрах: 1) задержка рабочих нагрузок, которые не влияют на обслуживание клиентов (административные и эксплуатационные фоновые задачи), 2) остановка некритических или стандартных рабочих нагрузок, 3) принудительный перевод серверов в режимы пониженного энергопотребления. Последнее решение является любимой темой исследований, но оно почти никогда не применяется на практике, потому что оно эквивалентно решению проблемы продажи лишних билетов путем размещения двух пассажиров на одном месте. В некоторой степени, это работает, но является небезопасным и не радует клиентов. Вариант 3 уменьшает количество ресурсов доступных для всех рабочих нагрузок путем снижения общего качества обслуживания. Для большинства коммерческих организаций это не может быть хорошим экономическим решением. Наилучшими можно считать варианты 1 и 2.

     Одним из классов приложений, работу которых особенно трудно сделать энергетически эффективной, являются интерактивные информационно емкие рабочие нагрузки. Поиск в интернете, реклама и машинный перевод — вот примеры рабочих нагрузок этого типа. Эти рабочие нагрузки могут быть очень прибыльными, поэтому указанный выше вариант 3, вариант снижения качества обслуживания, не может быть для подобных задач экономически оправданным. В примечании, касающемся стоимости задержки, мы рассматривали важность очень быстрого реагирования в рабочих нагрузках этого типа и системах электронной коммерции. Снижение качества облуживания в этих очень важных рабочих нагрузках с целью экономии электрической энергии, не имеет никакого экономического смысла.

     Наилучшим решением для этих рабочих нагрузок может быть то, что Баррозо и Hoelzle назвали вычислениями с соразмерным потреблением энергии (Случай вычислений с соразмерным потреблением энергии). В сущности, цель вычислений с соразмерным потреблением энергии – добиться того, чтобы сервер, работающий с нагрузкой 10%, мог потреблять 10% энергии сервера, работающего при полной нагрузке. Конечно, существуют накладные расходы, и эта цель никогда не будет полностью достигнута, но чем ближе мы к ней приблизимся, тем меньшими будут затраты и воздействие на окружающую среду при использовании стандартных рабочих нагрузок.

     Хорошей новостью является то, что в этом направлении удалось добиться определенных успехов. Когда впервые было предложено использовать вычисления с соразмерным потреблением энергии, многие серверы в режиме ожидания могли потреблять 80% энергии, расходуемой ими при полной нагрузке. Сегодня хороший сервер может снижать свое энергопотребление до 45% в режиме ожидания. Мы нисколько не приблизились к нашей цели, но делаем неплохие успехи. Фактически, процессоры являются вполне энергоэффективными по нынешним меркам, а наибольшими потребителями электрической энергии являются другие компоненты серверов. Память имеет большие возможности, и мобильные устройства показывают нам пределы возможного. Я надеюсь, мы будет продолжать делать успехи, заимствуя идеи в индустрии сотовых телефонов и применяя их к серверам.

     В работе Управление энергопотреблением интерактивных информационно емких сервисов, группа научных сотрудников из Google и Мичиганского университета занималась изучением проблемы соразмерного энергопотребления стандартными (OLDI) системами, используя такие типы рабочих нагрузок как поиск Google, реклама и перевод. Эти рабочие нагрузки являются трудными, потому что обеспечение требуемого времени задержки выполняется за счет использования больших модулей встроенной кэш-памяти и когда рабочая нагрузка снижается, все эти машины должны оставаться в рабочем состоянии для удовлетворения требований приложения к задержке. Не может быть вариантом сосредоточивание рабочей нагрузки на небольшом количестве серверов – размер кэш-памяти требует, чтобы все серверы продолжали быть доступными, и поэтому, когда рабочая нагрузка будет уменьшаться, все серверы должны будут обеспечиваться некоторой рабочей нагрузкой, для того чтобы вся система не могла перейти в режим пониженного энергопотребления.

     Размер кэша данных требует использования памяти всех серверов, поэтому когда рабочая нагрузка снижается, нагрузка каждого сервера соразмерно уменьшается, но на самом деле он никогда не переходит в режим ожидания. Они должны быть постоянно включенными и готовыми к обработке следующих запросов с требуемым временем задержки. В этой работе были сделаны следующие выводы:

     Обеспечиваемое процессором переключение в режим пониженного энергопотребления может быть самым лучшим, и единственным, механизмом уравновешивания энергопотребления и производительности, но само по себе это не позволяет добиться соразмерного энергопотребления.

     Существует настоятельная необходимость в улучшении режимов низкого потребления энергии в периоды простоя для общей кэш-памяти и контроллеров встроенной памяти.

     Есть большая возможность экономии энергетических затрат системной памяти с помощью режимов пониженного энергопотребления и сегодня мобильные системы хорошо справляются с этим, так что приемы являются доступными.

     Даже при пакетных запросах, перевод всей системы в режимы низкого потребления энергии в период простоя не может обеспечивать приемлемого баланса между временем задержки и энергопотреблением.

     В случае согласованного подхода, перевод всей системы в активные режимы пониженного энергопотребления является наиболее перспективным решением обеспечения соразмерного энергопотребления при сохранении приемлемой задержки запросов.

     Если обобщить типы стандартных рабочих нагрузок (OLDI), представленных в этой работе, то цели обеспечения требуемой задержки достигаются путем распределения кэш-памяти очень больших размеров между работающими серверами. Когда рабочая нагрузка снижается с максимального до минимального значения, все эти серверы становятся менее загруженными, но они никогда на самом деле не переходят в режим ожидания, и поэтому не могут перевести всю систему в режим пониженного энергопотребления.

     Мне нравится смотреть на серверы, поддерживающие эти рабочие нагрузки, как бы в двухмерном представлении. Каждый ряд представляет одну целую копию кэш-памяти, распределенной между сотнями серверов. Один ряд мог бы обслуживать эти рабочие нагрузки и успешно удовлетворять требуемые приложениями уровни задержки, но один ряд не будет расширяться. Для расширения рабочих нагрузок за пределы, которые могут обслуживаться в одном ряду, будут требоваться дополнительные ряды. Когда в системе появляется поисковый запрос, он отправляется сотням систем в одном ряду, но только серверам в одном ряду. Я мог бы утверждать, что если рассматривать рабочую нагрузку таким образом, у нас, действительно, появилась бы некоторая возможность заставить стандартные рабочие нагрузки (OLDI) соразмерно потреблять электрическую энергию на уровне хранилища. Когда рабочая нагрузка будет повышаться до своего максимального значения, будет требоваться дополнительные ряды. Когда нагрузка будет опускаться до предела, можно будет использовать меньшее число рядов, а ряды, которые в данный момент будут незадействованными, можно будет использовать для поддержки других рабочих нагрузок.

     Этот метод масштабирования на уровне рядов дает почти полную соразмерность на общем уровне дата-центра, за исключением двух следующих проблем: 1) рабочую нагрузку нельзя уменьшать ниже ряда по всем описанным в статье причинам, 2) если рабочая нагрузка является очень динамичной, быстро перескакивая с минимального до максимального значения, следует держать наготове дополнительные ряды на случай если они понадобятся, что еще больше снижает уровень соразмерного энергопотребления, предлагаемый этим приемом.

     Если рабочая нагрузка существенно выше одного ряда и предсказуемо колеблется между минимальным и максимальным значениями, этот прием масштабирования на уровне ряда дает очень неплохие результаты. Он не работает, в случае если рабочие нагрузки сильно изменяются, или в случае, когда для масштабирования требуется меньше одного ряда.

Ссылки автора статьи:

 

Автор статьи: James Hamilton,  член команды Amazon Web Services

Статья опубликована с разрешения автора.

Оригинал статьи находится: http://perspectives.mvdirona.com/2012/03/29/PowerManagementOfOnlineDataIntensiveServices.aspx

Блог James Hamilton: http://perspectives.mvdirona.com

 


Поделиться информацией

Вы можете послать эту статью или новость коллеге или знакомому по email со своим комментарием, пригласить обсудить ее. Просто нажмите на иконку конверта --->


Сообщения, вопросы и ответы

Вы можете задать вопрос, написать комментарий, обсудить данную новость или статью.

Ваше сообщение (вопрос, ответ, комментарий)