fbpx
Kategorie
Publicystyka

O awaryjności dysków twardych

W ciągu minionych 20 lat kupiłem około dwunastu talerzowych i pięciu półprzewodnikowych dysków twardych. Spośród nich awarii w pierwszych tygodniach pracy doznały: jeden HDD (uszkodzone sektory i nietypowe odgłosy) oraz jeden SSD (nagły zgon bez żadnego ostrzeżenia). Konkluzje? Brak. Losy kilkunastu nośników to typowe dane anegdotyczne, z których nie da się wyciągnąć wniosków ogólnych.

Co innego, gdy spojrzymy na kilkaset tysięcy dysków twardych i przeanalizujemy dane opisujące ich awaryjność podczas wielu lat pracy. Ciężkiej pracy, dodajmy – mowa o serwerowniach Backblaze, firmy świadczącej usługi przechowywania danych w chmurze. Inżynierowie tej firmy co kwartał dzielą się statystykami żywotności używanych napędów. Ostatnio opublikowali jednak obserwacje i metryki, które mogą zaskoczyć wielu weteranów branży IT…

Osiem lat temu na blogu Backblaze pojawił się jeden z pierwszych wpisów poświęconych awaryjności dysków talerzowych, firmia używała ich wtedy przeszło 25 tysięcy. Ówczesne obserwacje były następujące – w ciągu pierwszych sześciu kwartałów od instalacji napędu awaryjność wynosiła 5.1% (w ujęciu rocznym), potem następowało kolejne półtora roku stabilnej pracy czyli 1.4% awarii (j.w.). Żywotność HDD mających ponad 3 lata znacząco się pogarszała, późniejsze 11.8% awarii to już coroczny zgon niemal dwunastu napędów z każdej wciąż pracującej setki.

źródło: Backblaze

W 2013 roku oznaczało to, że czwartych urodzin dożywało osiem dysków na dziesięć, zaś rozkład awaryjności przypominał klasyczną „krzywą wannową”. Intuicyjnie czuje ją wielu pasjonatów dłubiących w komputerach – urządzenia peryferyjne z reguły psują się wkrótce po instalacji albo dopiero po wielu latach, z powodu naturalnego zużycia.

Okazuje się jednak, że w przypadku współczesnych dysków twardych ta zasada przestała się sprawdzać! W blogonotce z października 2021 czytamy, że:

  • awaryjność HDD w pierwszym okresie zmniejszyła się znacząco i nie przekracza dziś 2% (w ujęciu rocznym) – na dobrą sprawę zlewa się więc z okresem „środkowym”
  • czas eksploatacji również się wydłuża, znaczący wzrost odsetka awarii obserwujemy dopiero w szóstym roku pracy (choć i tak szóstych urodzin dożyje aż 88% napędów)

Zestawienie danych z lat 2013 i 2021 prezentuje się następująco:

źródło: Backblaze

Gdy powstawał powyższy wykres, w serwerowniach Backblaze pracowało jakieś 200 tysięcy dysków twardych. Napędy kończą służbę zazwyczaj nie wtedy, gdy się zepsują, lecz gdy bardziej opłaca się zastąpić je nowszymi. W roku 2019 Ryan Smith przeprowadził błyskotliwą analizę w której wykazał, że wymiana dysków 4 TB na dyski 12 TB – które konsumują tyle samo prądu i zajmują tyle samo miejsca – zwróci się już po 2-3 latach.

Autor: Ryan Smith

Dla nas jako konsumentów ważne jest to, że statystyki Backblaze opisują dyski z segmentu popularnego a nie wyżyłowane napędy serwerowe o podwyższonej niezawodności (i znacznie wyższej cenie). Cieszmy się więc rosnącą żywotnością HDD i… czekajmy na statystyki SSD, które są w Backblaze używane od trzech lat jako dyski systemowe. Póki co ich znormalizowana awaryjność wygląda podobnie do tego, jak radziły sobie pierwsze kohorty HDD z lat 2014-2016. Dopiero za kilka lat przekonamy się, jak wyglądać będzie niezawodność starzejącej się floty napędów SSD.

źródło: Backblaze

Chcesz samodzielnie przeanalizować dane źródłowe? Są dostępne na tej stronie. Nie zapomnij zaznaczyć w swoim opracowaniu, że informacje pochodzą od Backblaze!



O autorze: zawodowy programista od 2003 roku, pasjonat bezpieczeństwa informatycznego. Rozwijał systemy finansowe dla NBP, tworzył i weryfikował zabezpieczenia bankowych aplikacji mobilnych, brał udział w pracach nad grą Angry Birds i wyszukiwarką internetową Microsoft Bing.

27 odpowiedzi na “O awaryjności dysków twardych”

Bład w jednostkach miało być w TB
„W roku 2019 Ryan Smith przeprowadził błyskotliwą analizę w której wykazał, że wymiana dysków 4 GB na dyski 12 GB – które konsumują tyle samo prądu i zajmują tyle samo miejsca – zwróci się już po 2-3 latach.”

Może jakiś większy artykuł o żywotności różnych nośników danych z perspektywy domowego archiwum? Kiedy ~2 lata temu szukałem takich informacji ciężko było znaleźć porządne opracowanie tematu.

Po prostu kopiuj co parę lat na nowe nośniki. Te płyty CD-R, które nagrywaliśmy 20 lat temu, powinny się już łuszczyć 😉

Ciągle mam wiele płyt nagranych w późnych latach 90. i nie zauważyłem na żadnej tego zjawiska (którym też byłem straszony). Zgrywałem ostatnio kilkanaście z nich na dysk – żadnych błędów. Ciekawe, jak to z tym jest?

Miałeś fuksa – ja miewałem nośniki na których „sreberko” albo popękało, albo wręcz łuszczyło się jak stara farba na amelinium. Zrób kopie.

To łuszczenie się płyt to kolejny dowód anegdotyczny. Zresztą nigdy nie słyszałem o czymś takim, internet też milczy. Może chodziło o „disc rot” (nie żadne pękanie sreberka, tylko grzyby)?

Moja doświadczenie z płytami są jak najbardziej pozytywne. A nawet bardzo, w przypadku wielu płyt z okolic 2000 roku zastanawiam się: jak to możliwe, że tak sfatygowana płyta jeszcze się czyta bezbłędnie! Mnóstwo rys (nie dbało się wtedy o nośniki 😉 ). Kilka płyt CD ma nawet uszkodzoną wartwę odblaskową czymś ostrym (widać malutkie prześwitujące kropki pod światło) i… też działają poprawnie. Zaskakujące!

Oczywiście wszystkie płyty przechowywane w szafie w ciemnym miejscu w mieszkaniu, a nie w zapleśniałej piwnicy w bloku.

Kopie trzeba robić, to fakt. Nawet danych w chmurze. Dlatego również według mnie artykuł na temat żywotności nośników danych byłby czymś unikalnym w skali polskiego internetu. Wszystkich nośników danych – także tych bez możliwości zapisu: płyt tłoczonych, winyli, pamięci ROM w układach elektronicznych.

Myślę, że wiedza jak najlepiej przekazać kulturę i rodzinne archiwum przyszłym pokoleniom przydałaby się wielu osobom. Nie ma nośnika idealnego. Chmura była dobrze rokująca (bo to ktoś inny dba o nośniki fizyczne), ale… rozczarowuje coraz bardziej. Serwisy kończą działalność (pamięta ktoś Wrzutę? i te wszystkie unikalne utwory; a koniec NK to też przepadek większości zdjęć klasowych). Jakby tego było mało, Google będzie kasował zdjęcia i maile po 2 latach nieaktywności konta. Ech…

Ty nigdy nie słyszałeś, a ja widziałem. Nie bardzo wiem, co tu napisać więcej. Po prostu srebrna warstwa ochronna złuszczała się a razem z nią barwnik reagujący na wypalanie laserem CD-R, zostawał przezroczysty poliwęglan.

Co do żywotności nośników po latach, to ciężko o dane – producenci starają się symulować starzenie i zużycie swoich produktów, ale dopiero rzeczywisty upływ czasu niesie rzeczywiste szkody i awarie. Gdybym miał jeszcze coś na płytach CD/DVD-R/RW, kopiowałbym to na dyski twarde, pendrive’y i w chmurę. Replikacja to podstawa.

W sumie jak skończę kopiowanie archiwizację swoich 2x 8TB HDD, to zabieram się za starą kolekcję CD/DVD (tylko jeszcze muszę sobie napęd DVD na USB załatwić).

Pytanie, czy masz jakiś sensowny pomysł jak przy okazji odczytać „żywotność” takiego nośnika? Spokojnie mówimy tu o płytach w wieku 10+

Potwierdzam, że się łuszczą. Przynajmniej niektóre i w niektórych warunkach. Jakbym miał strzelać, to tanie, błyszczące, przy większej wilgotności są bardziej podatne.

O żywotności możesz wnioskować testując płyty programem Nero DiscSpeed (dawniej Nero CD/DVD Speed) lub OptiDrive Control. Zakładka Jakość dysku.

Do najcenniejszych danych ja wybrałem płyty M-DISC DVD ale wyłącznie oryginalne firmy Millenniata, omijam Traxdata oraz Verbatim, choć raczej z odgórnego założenia by omijać produkty licencyjne, niż z rzeczywistych doświadczeń.

Płyty mają jedną niezaprzeczalną zaletę: Nie skasujesz sobie danych niechcący, ani przy odpinaniu kabla USB, ani ransomware ich nie zaszyfruje. Odporne są też na wszelkiego rodzaju pola magnetyczne, czy rozbłyski słoneczne.

Na żywotność krążków wpływ ma też prędkość nagrywania. Ja nagrywam jak najwolniej.

Dlaczego DVD, a nie BluRay? Bo cenowo wychodzą podobnie (Blu około 10zł/25GB, a DVD dobrej marki też około 10zł/25GB), a w razie awarii tracę 4,3GB, a nie 25GB.

Tak samo z dyskami: Awaria to strata setek GB danych. Awaria płyty to kilka GB.

Platinium czy Vacossy prawdopodobnie tak. A najbardziej luszczyly sie Dysany (potwierdzone osobiscie). Ja natomiast wazne dane (a nie filmy czy muze) nagywalem na dobrej nagrywarce (Teac W54E) z wolna predkoscia, w praktyce x4. Nosniki to byly glownie Vebatimy, czasami TDK. Pierwsze czyste plytki CD kupowane jeszcze po 18zl w roku 1998 czytaja sie do dzis i nic sie nie luszczy. Przechowywane w koszulkach, w ciemnych miejscach i nie ruszane. Probka statystyczna – okolo 20 takich plytek. 100% sprawnosci.

Plytki firmy wymieniony w moich 2 pierwszych zdanich popadaly na potege, pomimo malego jittera – nawet jak sie nie luszczyly, to danych nie dalo sie czytac (czytanie testowane nawet na tej samej, starej nagrywarce pare lat temu). Probka statystyczna – kilkasek plytek, na oko okolo 30% do kosza. W praktyce do koszalina poszly wszystkie jako malo wiarygodne i juz niepotrzebne.

Pierwsze zdanie: (…) kupiłem (…) dwunastu (…) i pięciu (…) dysków twardych. A może jednak biernikowo: „dwanaście” i „pięć”? 🙂

„kupiłem około dwanaście (…) i pięć (…)” – no mi nie brzmi

Rzeczowniki liczby mnogiej można podzielić na dwa rodzaje: te, które łączą się z zaimkiem „ci” oraz na te, które łączą się z zaimkiem „te”. Te pierwsze są rodzaju męskoosobowego, te drugie – niemęskoosobowego. „Te” dyski są rodzaju niemęskoosobowego.

Odmiana liczebnika pięć i wzwyż w formie niemęskoosobowej w bierniku to „pięć”. Np.: https://polski.info/pl/grammar/numerals

Mam nadzieję, że pomogłem 🙂

Kupiłem (kogo, co?). Ale dokonałem zakupu (kogo, czego?). Zatem „kupiłem pięć”, ale „dokonałem zakupu pięciu”.

Masz rację: „pięciu” i „dwunastu”. Nie zauważyłem „około”. Liczebniki po przyimku „około” odmieniamy tak samo jak rzeczowniki, a więc przyjmują one formę dopełniacza, a nie biernika. Przepraszam za zamieszanie.

Przydałyby się linki do najlepszych wg autora dysków na rynku w celu zakupu (kogo? czego?) kilku z nich na backupy domowe zdjęć rodzinnych.
Profit z afiliacji byłby tylko dodatkiem.

Backblaze z początku używało zwykłych dysków desktopowych, nawet wyciągali je z zewnętrznych dysków. Z czasem przerzucali się na NAS’owe i typowo serwerowe dyski, więc raczej dlatego spadła ich awaryjność.

Artykuł bardzo ciekawy jednak 'krzywa wannowa’ jest źle narysowana.
Niebieska „Wanna” powinna być sumą krzywych kropkowych, ewentualnie po dodaniu wartości poziomej zielonej linii.
Ach ten pospiech 🙂

Z tego względu używam RAID1. Mam go skonfigurowanego na laptopie a także na komputerze stacjonarnym w domu – w obu tych miejscach RAID programowy za pomocą linuksowego md.

Oczywiście RAID nie zwalnia z wykonywania backupu, chroni on tylko przed niektórymi przyczynami utraty danych.

Artykuł jak zawsze na „Informatyku” ciekawy.
W kontekście napędów SSD może kogoś zainteresuje publikacja: „Large Scale Studies of Memory, Storage, and Network Failures in a Modern Data Center” w oparciu o dane badawcze z serwerowni Facebooka. Do pobrania m.in. stąd: https://arxiv.org/abs/1901.03401

Zdecydowanie zmienia się też charakter występujących usterek. Kiedyś w przypadku dysków twardych częstą przyczyną usterek były awarie podsystemu mechanicznego. Jednak w miarę postępów i dopracowania podzespołów mechanicznych, awarie wynikające z ich zużycia występują znacznie rzadziej i po wyraźnie dłuższym okresie eksploatacji, niż kiedyś. Oczywiście po odrzuceniu awarii mechanicznych wynikających ze zdarzeń losowych, takich jak uderzenie lub upadek. Dopiero spopularyzowanie konstrukcji tzw. slimowych spowodowało, że naturalne usterki mechaniczne znów stały się zauważalne. Upakowanie w miarę rosnącej gęstości zapisu coraz bardziej delikatnego i precyzyjnego podsystemu mechanicznego w ciasnej obudowie oraz fatalnie rozwiązane uszczelnienie, to recepta na powrót wyższej awaryjności.

Spadł też odsetek usterek elektronicznych oraz wynikającej z niestabilnego zasilania degradacji powierzchni magnetycznej. Tak, przepisy unijne wyeliminowały z rynku niegdyś cenione i popularne ze względu na niską cenę najgorsze i najbardziej niestabilne zasilacze. Poza tym negatywne doświadczenia trochę podniosły świadomość użytkowników co do znaczenia jakości używanego zasilacza i dziś nawet w specyfikacjach przetargowych zdarza się, że pojawiają się jakieś wymagania techniczne odnośnie zasilaczy.

Za to wzrosło znaczenie usterek po stronie oprogramowania układowego. Im nowocześniejsze dyski, tym większe znaczenie oprogramowania układowego obarczanego coraz większą liczbą zadań. Należą do nich m. in. monitorowanie parametrów SMART, zarządzanie defektami, korekcja błędów odczytu przy pomocy kodów ECC, oraz tłumaczenie adresacji logicznej LBA na adresy fizycznych sektorów. Zwłaszcza to ostatnie zadanie mocno się skomplikowało po wprowadzeniu technologii zwiększania gęstości zapisu SMR.

Tyle w skrócie o dyskach twardych. Najważniejsze problemy SSD opisałem tu:
http://kaleron.pl/awarie-SSD.php
więc pozwolę sobie nie przepisywać tego drugi raz:).

Komentarz do podlinkowanego artykułu. Nie ma tranzystorów polowych NPN i PNP, są natomiast n-kanałowe i p-kanałowe oba rodzaje mogą być z kanałem wzbogacanym (normalnie przerwa), lub zubożanym (normalnie zwarcie). O typach NPN i PNP mówimy w przypadku tranzystorów bipolarnych (nie polowych).

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *