Влияние температуры в центрах обработки данных на надежность работы жестких дисков. Часть 2
Оценка новости или статьи:
2.3 Температура и надежность динамичного ОЗУ (DRAM)
2.3.1 Освещение проблемы и исходные данные
В этом разделе рассматривается влияние температуры на надежность DRAM, которое является одним из наиболее часто заменяемых аппаратных компонентов в дата-центрах и одной из самых распространенных аппаратных причин отказа узлов [30, 31]. DRAM имеет два разных вида ошибок: исправимые ошибки (CE), при которых переключаются отдельные биты на микросхеме DRAM, но которые можно исправить с помощью встроенной кода исправления ошибок (error correcting codes, ECC); и неисправимые ошибки (UE), при которых переключается множество битов, и число ошибочных битов является слишком большим для того чтобы ECC могла их исправить, и это вызывает фатальный сбой или выключение. Причиной исправимых ошибок (CE) могут быть внешние помехи, например, космические лучи, или аппаратные дефекты, например, залипающий бит. Причиной неисправимых ошибок обычно являются дефекты базового оборудования, так как очень маловероятно, чтобы космические лучи могли вызвать одновременное переключение такого большого число битов, чтобы это могло привести к неисправимой ошибке. Поэтому во многих ЦОД принято сразу заменять DRAM DIMM после первого случая возникновения неисправимой ошибки.