Оценка надежности накопителей, установленных в настольных компьютерах и бытовых электронных устройствах
ВведениеУстройства хранения информации на жестких дисках традиционно устанавливались главным образом на настольных компьютерах, однако в последнее время накопители все чаще находят применение и в бытовой электронике. В настоящей статье описываются способы оценки надежности накопителей, установленных в настольных компьютерах и бытовых электронных устройствах, с использованием результатов стандартных лабораторных испытаний компании Seagate.
ОпределенияПод наработкой на отказ Seagate подразумевает отношение времени РОН (Power-On Hours - время в часах, в течение которого накопитель находился во включенном состоянии) в течение года к усредненной интенсивности отказов AFR (Annualized Failure Rate - годовая интенсивность отказов) за первый год. Такой метод дает достаточную точность при малом количестве отказов, поэтому мы используем его для расчета наработки на отказ "первого года". Усредненная годовая интенсивность отказов для накопителя рассчитывается на основе данных о времени безотказной работы, полученных в ходе испытаний RDT (Reliability-Demonstration Test - демонстрационные испытания надежности). По той же методике проводятся и заводские испытания FRDT (Factory Reliability-Demonstration Test - заводские демонстрационные испытания надежности), однако здесь проверяются серийные накопители из производственных серий. В рамках настоящего документа мы будем исходить из того, что любая концепция, применимая в отношении RDT, справедлива также и для FRDT.
Испытания на надежность, проводимые SeagateВ Группе персональных устройств хранения Seagate со штаб-квартирой в г. Лонгмонт (шт. Колорадо) испытания накопителей для настольных систем на надежность обычно проводятся в термокамерах при температуре окружающей среды +42 градуса по Цельсию, что повышает интенсивность отказов. Кроме того, накопители при этом эксплуатируются с максимально возможной продолжительностью включения (под продолжительностью включения дисковода понимается количество поисков данных, их считывания и записи в течение заданного отрезка времени). Это делается для того, чтобы выявить как можно больше причин отказа еще на стадии разработки изделия. Устранив проблемы, отмеченные на этом этапе, мы можем быть уверены, что наши пользователи с ними больше не столкнутся.
Оценка параметров по WeibullПредположим, что испытанию RDT были подвергнуты 500 накопителей, каждый из которых проработал 672 часа при температуре окружающей среды 42°С. Допустим также, что в ходе испытания было отмечено три отказа (после 12, 133 и 232 часов работы). Это означает, что из 500 проверенных накопителей успешно прошли испытание 497. Для анализа и экстраполяции полученных результатов мы применяем моделирование по Weibull, используя для этого пакет программ SuperSmith фирмы Fulton Findings1. В частности, с помощью метода максимального правдоподобия производится оценка таких параметров распределения Weibull, как бета (форм-фактор) и эта (масштабный коэффициент).
(То есть априори предполагается, что отказы распределены согласно Weibull. Для тех, кто знаком с математической статистикой, приведу формулу плотности вероятности для этого распределения:
Смысл проводимых испытаний - оценить параметры распределения. При этом считается, что при заданном значении бета параметр эта равен времени в часах, за которое выйдут из строя 90% тестируемых накопителей. (Обсуждение данной математической модели требует серьезных познаний в математической статистике и выходит за рамки данной статьи, поэтому предлагается принять ее как факт) - прим. редактора). Если в ходе испытания отмечено пять или менее отказов, точно определить параметр бета по полученным данным невозможно. Поскольку такие результаты испытаний встречаются довольно часто, мы анализируем их с помощью метода WeiBayes2, в основу которого положена оценка параметра бета по статистическим данным. В лаборатории продукции для настольных компьютеров мы сейчас принимаем бета = 0,55. Такое значение получено на основе производственных данных, представленных ниже в таблице. Она составлена на основании испытания всех накопителей для настольных систем, прошедших проверку до марта 1999 г.
Приведенный ниже график отображает результаты анализа Weibull и WeiBayes. Сплошная линия соответствует параметрам бета и эта по Weibull (бета = 0,443, эта = 69 331 860), рассчитанным по методу MLE (Maximum Likelihood - максимальное правдоподобие)3 всего для 3 отказов на 500 накопителей. Как уже отмечалось, такие результаты считаются не столь точными, как полученные по методу WeiBayes для небольшой интенсивности отказов. Результаты, полученные методом WeiBayes (для бета = 0,55), представлены на графике пунктирной линией. Поскольку 672 часа работы при температуре 42°С для испытания RDT вполне достаточно, мы использовали свой внутренний параметр "доверительная вероятность прекращения испытаний"4, который для анализа WeiBayes принят равным 63,2%. Расчет по методу WeiBayes показал, что при температуре 42°С и статистическом значении бета = 0,55 приемлемое значение эта составляет 3 787 073 часа.
W/mle = Доверительная вероятность прекращения испытаний WeiBayes fit = Аппроксимация WeiBayes Observed Weibull fit via MLE = Аппроксимация данных исследования по Weibull методом максимального правдоподобия Eta = эта Beta = бета n/s = (всего/исправных накопителей) Следующий этап анализа состоит в пересчете параметра эта, полученного в результате тестов при 42°С, в значение, соответствующее нашей стандартной рабочей температуре (25°С). Опираясь на модель Arrhenius5, для учета температурных различий можно принять коэффициент учащения отказов равным 2,2208. Таким образом, значение эта для 25°С (эта25) будет равным значению этого параметра для 42°С (эта42), умноженному на 2,2208, то есть, 8 410 332 часа.
Оценка среднего времени наработки на отказ в течение первого года на основании параметров WeibullНа основании параметров бета и эта Weibull, полученных после температурной коррекции, в любой момент можно рассчитать суммарный процент отказов. Чтобы оценить процент накопителей, которые могут выйти из строя при температуре 25°С в промежутке времени от t1 до t2, достаточно произвести вычитание значений суммарного процента отказа в моменты t1 и t2, а затем воспользоваться соответствующими значениями бета и эта25. Для оценки усредненной интенсивности отказов (параметр AFR) за первый год эксплуатации накопителя, установленного в настольном компьютере, примем, что у пользователя устройство находится во включенном состоянии 2 400 часов в год. Допустим также, что еще 24 часа оно эксплуатировалось на заводе на этапе интеграции. Поскольку все накопители, вышедшие из строя в течение этого периода, возвращаются в Seagate и к конечному пользователю не попадают, при расчете AFR и наработки на отказ за первый год они не учитываются. С учетом приведенного выше (продолжительность включения 100%, эта25 = 8 410 332 час, бета = 0,55 и общее время работы за год 2 400 час) относительную интенсивность отказов за первый год можно рассчитать как интенсивность отказов, произошедших в период между 24 час (t1) и 2 424 час (t2). Результаты такого расчета приведены ниже в таблице, построенной на основе наработки на отказ в течение первого года и данных, полученных в ходе испытаний RDT.
(Р(отказов) вычисляются на основании распределения Weibull - см. график. Далее понятно: Наработка на отказ за первый год = Наработка за год / AFR за первый год - прим. редактора).
Учет реальных условий использованияКак показывают приведенные выше расчеты, если накопитель используется при температуре 25°С и находится во включенном состоянии 2 400 часов в год, можно ожидать, что при работе у пользователя средняя наработка на отказ составит 232 140 часов. Однако такие условия соблюдаются в бытовой электронике не всегда. В некоторых бытовых приборах, скажем, накопитель может работать почти непрерывно, поэтому время его работы за год намного превысит 2 400 часов. В других же устройствах, например, игровых видеоприставках, этот показатель может оказаться значительно ниже. В последующих разделах описано, как именно можно скорректировать расчетное значение наработки на отказ для различной интенсивности использования, продолжительности включения и окружающей температуры.
Интенсивность использованияУчесть изменения средней наработки на отказ, вызванные различиями в интенсивности использования накопителя, можно с помощью приведенного графика.
Название вертикальной оси - Корректирующий множитель для наработки на отказ Название горизонтальной оси - Ожидаемое время работы накопителя за год Например, если известна наработка на отказ для 2 400 рабочих часов в год, а реальное рабочее время за год составляет 8 760 часов, то среднее время наработки на отказ снизится примерно вдвое. И наоборот: когда накопитель работает мало, как это бывает в некоторых игровых видеоприставках, то наработка на отказ может почти удвоиться.
ТемператураТеперь давайте посмотрим, как изменяется время наработки на отказ при повышении рабочей температуры. Для построения графика температурного коэффициента времени наработки на отказ можно применить ту же модель Arrhenius, которую мы использовали для определения коэффициента учащения отказов. Представленная ниже таблица показывает, как снижается наработка на отказ за первый год (если продолжительность включения составляет 100%) при температуре окружающей среды выше 25°С.
Как видно из таблицы, по мере роста окружающей температуры температурный коэффициент снижения времени наработки на отказ и скорректированная наработка на отказ значительно сокращаются. Так, при 42°С коэффициент учащения отказов составляет 2,2208 (как и было определено в ходе настоящего анализа ранее). А коэффициент коррекции времени наработки на отказ для этой же температуры равен 0,45, то есть, среднее время наработки на отказ при температуре 42°С оказывается в два с лишним раза меньше, чем при температуре 25°С.
Продолжительность включенияПродолжительность включения большинства накопителей, установленных в персональных компьютерах, составляет от 20 до 30%, тогда как в бытовых электронных устройствах этот показатель может быть выше или ниже. Измерив объем данных, который пересылается внутри современных устройств бытовой электроники за сутки, специалисты Seagate установили, что продолжительность включения накопителей в них составляет всего 2,5%. Чтобы определить, как изменяется наработка на отказ при продолжительности включения 2,5% по сравнению со 100% (такое значение характерно для испытаний RDT), нужно выяснить, какое влияние на этот процесс оказывают те компоненты накопителей, состояние которых зависит от продолжительности включения, а какое - другие его элементы. Количество зависимых компонентов в накопителе прямо пропорционально количеству пластин жестких дисков в нем. Взаимоотношение между числом жестких дисков и усредненной интенсивности отказов за первый год отображено на следующей иллюстрации. Пространство под пунктирной линией на этом графике соответствует "базовой", - то есть, не зависящей от того, как долго работает устройство, - интенсивности отказов гипотетического накопителя с нулевым количеством жестких дисков (или накопителя, который не производит чтения, записи и поиска информации). Сплошной линией отмечена ожидаемая интенсивность отказов как функция количества жестких дисков.
Название вертикальной оси - Нормализованное значение AFR Название горизонтальной оси - Количество пластин жестких дисков (не более 4) Total AFR = Общая усредненная интенсивность отказов Base AFR = Базовая усредненная интенсивность отказов Как видно из графика, уменьшение продолжительности включения снижает количество только тех отказов, которые связаны со временем работы накопителя (пространство между пунктирной и сплошной линиями). Зная соотношение между количеством отказов, зависящих от продолжительности включения, и их общим числом, можно оценить влияние продолжительности включения на усредненную интенсивность отказов AFR. Так, для накопителя с четырьмя жесткими дисками общая интенсивность отказов составит 1,4%, а базовая - 0,6%. Снижение продолжительности включения уменьшит вероятность отказа на [(1,4 - 0,6)/1,4] = 57%. Таким образом, снижая время работы четырехдискового накопителя, мы можем уменьшить вероятность отказа только на 57%, остальная доля неполадок от продолжительности включения не зависит. Изменение коэффициента наработки на отказ для накопителей с разным количеством жестких дисков представлено на следующем графике.
Название вертикальной оси - Коэффициент наработки на отказ Название горизонтальной оси - Продолжительность включения 1-disk… = Для дисковода минимальной емкости с 1 жестким диском 2-disk… = Для дисковода с 2 жесткими дисками 3-disk… = Для дисковода с 3 жесткими дисками 4-disk… = Для дисковода максимальной емкости с 4 жесткими дисками
Комплексный учет нескольких факторовПродолжая анализ, оценим комбинированное воздействие различных значений продолжительности включения и температурных коэффициентов сокращения наработки на отказ для нескольких накопителей. На графике внизу слева представлены коэффициенты коррекции наработки на отказ для накопителя высокой емкости с 4 жесткими дисками при разных комбинациях продолжительности включения и температуры окружающей среды. Рисунок справа отображает такие же коэффициенты для накопителя, оснащенного только одним жестким диском. Как видно из этих графиков, в зависимости от продолжительности включения и рабочей температуры накопителя, установленного в ПК, эффективная наработка на отказ за первый год может оказаться выше, равной или ниже, чем ожидаемое значение этого параметра, рассчитанное по результатам заводских испытаний. При этом на накопителе с одним жестким диском изменение продолжительности включения и окружающей температуры сказывается слабее, а коэффициенты коррекции здесь значительно меньше.
Название вертикальной оси - Коэффициент снижения времени наработка на отказ Название горизонтальной оси - Окружающая температура, °С DF@100%... = Продолжительность включения = 100% DF@30%... = Продолжительность включения = 30% DF@20%... = Продолжительность включения = 20% DF@10%... = Продолжительность включения = 10% DF@5%... = Продолжительность включения = 5% DF@1%... = Продолжительность включения = 1%
Надежность после первого года эксплуатацииСогласно распределению Weibull, описывающему зависимость наработки на отказ от срока эксплуатации, при значении бета меньше единицы вероятность отказов оборудования со временем снижается. По этой причине интенсивность отказов накопителей на первом году эксплуатации должна быть выше, чем в последующие годы. Но какова будет интенсивность отказов или среднее время наработки на отказ, если усреднить эти показатели за все время эксплуатации накопителя? Ниже приведены три метода оценки надежности, позволяющие ответить на этот вопрос.
Чтобы нагляднее продемонстрировать различия между моделями, мы приводим график суммарной относительной интенсивности отказов, построенный на основании каждой из них (время наработка на отказ для первого года эксплуатации принято равным 200 000 часов).
Название вертикальной оси (между цифрами точки заменить на запятые) - Суммарная интенсивность отказов за год эксплуатации пользователем Название горизонтальной оси - Год эксплуатации пользователем Weibull analysis = Анализ по Weibull "Flatline" model = "Плоская" модель Model based... = Модель оценки по данным гарантийного обслуживания Как видно из приведенного выше графика, "плоская" модель дает более осторожную оценку, чем "чистый" анализ по Weibull, и очень близка к оценке по данным гарантийного обслуживания Seagate за первые три года. Для простоты анализа, а также для того, чтобы получить более осторожные оценки, мы решили применять в своих расчетах "плоскую" модель. При использовании "плоской" модели суммарные результаты отношения между наработкой на отказ за все время эксплуатации к этому параметру за первый год могут выглядеть следующим образом:
Проведенные расчеты показывают, что для оценки среднего времени наработки на отказ за три года эксплуатации дисковода нужно умножить исходный показатель за первый год (для той же продолжительности включения и окружающей температуры) на коэффициент 1,56. Аналогично можно рассчитать и среднее время наработки на отказ за пять и десять лет, умножив значение исходного параметра за первый год на 1,76 и 1,95 соответственно.
Окончательный расчетНа основе всех коэффициентов, рассчитанных выше, мы можем преобразовать наработку на отказ, указываемую фирмой Seagate (на первый год эксплуатации, при 2 400 рабочих часах в год и продолжительности включения 100%) в среднее время наработки на отказ для накопителя, установленного в устройстве конечного пользователя и работающего при конкретной окружающей температуре с определенной продолжительностью включения. После этого можно также оценить и среднее время наработки на отказ за все время службы накопителя. Ниже приведен пример расчета среднего времени наработки на отказ в течение первого года и всего срока эксплуатации для накопителя, работающего в течение 2 400 часов в год при температуре 34°С, продолжительности включения 30% и рассчитанного на срок службы 5 лет.
В качестве завершающего примера рассмотрим накопитель Seagate с одним жестким диском, для которого наработка на отказ в течение первого года составляет 444 000 час. Допустим, он установлен в бытовом электронном устройстве, используется 2 920 часов в год (8 часов в день, 7 дней в неделю) при окружающей температуре 42°С и продолжительности включения 5%.
ЗаключениеОписанный выше метод позволяет использовать данные лабораторных испытаний Seagate для оценки надежности накопителей, установленных в настольных компьютерах и бытовых электронных приборах, которые работают в условиях "реального мира". Вкратце этот метод сводится к следующему:
По материалам Seagate Technology
Опубликовано - 23 марта 2001 года |