Prevedere malfunzionamenti all'hard disk tramite S.M.A.R.T.

giovedì 28 maggio 2015 di Massimo Mazza

DST_image_970x300_hero-platter-damage

Abbiamo già parlato dei più noti metodi per riconoscere i segnali di possibili guasti all'hard disk drive (HDD) sottolineando però che non si tratta di sistemi che possiamo definire scientifici. Cigolii e rumori anomali sono dei segnali certi che un HDD sta per smettere di funzionare. Questo approccio non è però applicabile ai drive di un data center remoto che sono fuori dalla portata del nostro orecchio.

I produttori di hard disk stimano  la longevità dei loro dispositivi di storage ma spesso la valutazione sembra non essere corretta. Essi utilizzano una metrica denominata Mean Time Between Failures (MTBF) ovvero l'intervallo medio di tempo tra un guasto e l’altro. Questo parametro viene calcolato in base al funzionamento di un numero elevato di drive su un arco temporale della durata da settimane a mesi che garantisce letture per 1.5 milioni di ore – circa 200 anni – su hard disk  ad uso enterprise. La metrica è un parametro valido ma la stima che viene effettuata ha poco a che vedere con il periodo di vita medio di un hard disk reale.

La maggior parte dei produttori, tuttavia, offre anche un metodo più sofisticato per prevedere il malfunzionamento di un HDD. Nello specifico i loro dispositivi vengono preinstallati con un set di strumenti firmware chiamato Self Monitoring, Analysis and Reporting Technology (S.M.A.R.T.), che comunica i dati sulle performance dell’hard disk al sistema operativo. Queste informazioni vengono poi visualizzate e analizzate attraverso un software che fornisce agli amministratori IT una visione più ampia sullo stato di salute dei loro dispositivi di storage.

Le metriche tracciate dagli strumenti S.M.A.R.T. - che prendono il nome di attributi - cambiano da produttore a produttore: esempi tipici includono il numero di ore durante il quale il drive è rimasto acceso, il tempo che questo impiega a raggiungere la velocità operativa e il numero dei settori riallocati.

Il controllo dei dati S.M.A.R.T.

Il controllo dei dati S.M.A.R.T. sui vostri dispositivi di storage è generalmente molto semplice. È possibile acquistare un software realizzato ad hoc per questo scopo oppure se utilizzate Windows potete avere un resoconto veloce degli attributi S.M.A.R.T. dell’HDD e accedere a una loro lettura attraverso il comando prompt.

Se state cercando un modo per tracciare e analizzare i dati S.M.A.R.T. in maniera più proattiva, potete facilmente accedere a diversi strumenti disponibili su numerose piattaforme e con prezzi diversi. Un esempio è Ontrack EasyRecovery, lo strumento più adatto per monitorare lo stato di salute dei vostri hard disk e pianificarne quindi una loro eventuale sostituzione.

L’affidabilità degli strumenti S.M.A.R.T.

Dobbiamo ancora dire se gli strumenti S.M.A.R.T. siano o meno degli indicatori affidabili circa la salute degli hard disk. Quindi lo sono o non lo sono? La risposta è sì e no.

Se da un lato gli attributi S.M.A.R.T .vengono considerati utili per prevedere un malfunzionamento degli HDD, dall'altro il sistema ha i suoi limiti.

Il più importante è legato al fatto che gli strumenti S.M.A.R.T. non sono in grado di prevedere al 100% possibili crash dell’hard disk: questo perché non tutti i crash sono di per sé prevedibili. Mentre gli errori che derivano dai danni causati dall'usura vengono mostrati sotto forma di letture S.M.A.R.T. anomale, le eccezioni legate a malfunzionamenti elettronici e a guasti alle componenti non vengono mostrate in alcun modo. Uno studio di Google del 2007 su 100,000 HDD di utilizzo consumer ha evidenziato che meno di tre quarti dei malfunzionamenti (64%) su un periodo di nove mesi non era stato segnalato dagli strumenti S.M.A.R.T.

Un altro fattore che rende gli attributi S.M.A.R.T. meno utili è da ricondurre al fatto che questi variano da produttore a produttore e anche ove vi sono attributi in comune le misurazioni vengono effettuate in maniera differente. Quindi un dispositivo Seagate e uno Western Digital di salute equivalente potrebbero ad esempio mostrare letture dei tassi di errore completamente diverse.

Lo scorso novembre, Backblaze, un provider di servizi di backup in Cloud ha pubblicato uno studio interessante su come l'utilizzo dei diversi attributi S.M.A.R.T. può variare in modo incontrollato. In base alle letture di circa 40,000 hard disk con un archivio dati di 100 petabyte è emerso che su 70 attributi disponibili solo 5 erano indicatori affidabili per prevedere il malfunzionamento degli hard disk. “Vorremmo saperne di più. I produttori di hard disk dovrebbero dirci esattamente il significato e lo scopo degli attributi S.M.A.R.T.” ha scritto l’ingegnere Brian Beach.

Per concludere

Gli strumenti S.M.A.R.T. non forniscono dati certi al 100% sul come e quando uno dei vostri hard disk smetterà di funzionare. Di certo sono in grado di prevedere alcuni malfunzionamenti, supposto che voi sappiate poi dove guardare, ma altri possono verificarsi senza essere preventivamente segnalati.

Di conseguenza nessun utente esperto si affiderebbe solamente agli strumenti S.M.A.R.T. – o su altri strumenti di previsione – per impedire una perdita dati e pianificare una business continuity. Data la natura elettromeccanica dei dispositivi è bene pensare ad un mix di attività di protezione: ridondanza, backup e recupero dati senza affidarsi unicamente agli strumenti S.M.A.R.T.

Servizi di recupero dati

Hai perso i tuoi dati? Contattaci subito per recuperarli.


Cosa pensano i clienti dei nostri servizi: