Come convivere felicemente con il proprio sistema RAID

giovedì 16 aprile 2015 di Massimo Mazza

RAID

RAID, acronimo di Redundant Array of Independent Disks, è un insieme di hard disk (oggi anche di SSD) indipendenti in grado di assicurare ridondanza ai dati. I sistemi RAID trovano principalmente impiego in ambito business, dove rappresentano il sistema di storage più diffuso all’interno di ambienti server.

RAID Server

Con la continua riduzione dei prezzi, oggi è abbastanza frequente trovare configurazioni RAID anche in ambito domestico. Non si tratta ovviamente di sistemi in alcun modo paragonabili ai RAID di uso enterprise ma di NAS (Network Area Storage) inseriti nella rete di casa per il salvataggio di dati e la condivisione tra più dispositivi di video, foto, musica e altri contenuti di intrattenimento.

Ben diverso invece è l’impiego professionale.

I RAID utilizzati nelle architetture di storage di classe enterprise svolgono compiti generalmente business-critical e la loro efficienza e operatività sono di primaria importanza. I RAID supportano il funzionamento di ambienti virtuali (es. VMware, Microsoft Hyper-V, Oracle VM, Citrix XenServer), l’uso di database (es. Microsoft SQL, Oracle, MySQL), i sistemi di posta elettronica (es. Microsoft Exchange) e tutte le esigenze applicative che hanno bisogno di performance, affidabilità e scalabilità.

In queste realtà, il blocco di un sistema RAID con perdita dei dati rappresenta un vero e proprio disastro informatico da evitare assolutamente.

Fidarsi è bene, non fidarsi è meglio!

I sistemi RAID sono più affidabili dei singoli hard disk o dei singoli SSD. Questo è vero perché, impiegando più dischi e prevedendo un sistema di ridondanza, possono tollerare il malfunzionamento o guasto di uno dei drive che compongono l’array. Se necessario, la ricostruzione delle informazioni avverrà utilizzando i dati di parità calcolati e salvati durante le normali operazioni di scrittura.

Poiché fidarsi è bene, ma non fidarsi a volte è meglio seguire una raccolta di commenti e suggerimenti degli esperti Ontrack per aiutarti a lavorare meglio e in tutta tranquillità con il tuo sistema RAID.

RAID: alcuni suggerimenti e best practice per lavorare tranquilli

  1. Non è vero che i sistemi RAID non perdono i dati
    I sistemi RAID limitano il rischio di perdita dei dati ma non lo annullano del tutto: non esiste, attualmente, un sistema di storage immune alla perdita dei dati.

  2. Fai attenzione, non sempre i RAID sono “Redundant”
    Alcune configurazioni non prevedono tolleranza ai guasti, il livello RAID 0 (striping) è privo di ridondanza e di calcolo della parità. I dati vengono generalmente ripartiti tra due dischi e il guasto di una delle unità comporta la perdita dei dati.

  3. Il RAID funziona anche se si guasta un disco ma... (continua al punto successivo) 
    In generale, tranne alcuni casi, un sistema RAID funziona anche se un disco smette di funzionare. É ad esempio il caso del RAID 5, una delle configurazioni più diffuse. Il guasto di un disco in un RAID 5 non deve però essere sottovalutato poiché il malfunzionamento di una seconda unità causerà una perdita dei dati.

  4. ... il RAID non tollera il guasto di due dischi
    Con riferimento alla configurazione RAID 5, essa non tollera il guasto di due dischi. Il fault di un’unità seguito dal fault di una seconda comporta irrimediabilmente la perdita dei dati. La tolleranza al guasto di due dischi è invece supportata dal livello RAID 6 che lavora utilizzando una doppia parità. Negli ambienti che richiedono alta tolleranza ai guasti la configurazione RAID 6 è preferibile. Se invece l’obiettivo sono le prestazioni il RAID 5 può fornire un buon compromesso tra sicurezza e performance. La scrittura dei dati su RAID 5 è più veloce in quanto il calcolo di parità è più semplice.

  5. Sostituzione del disco in fault
    Molto spesso il sistema RAID è costituito da hard disk o SSD dello stesso produttore, dello stesso tipo e dello stesso lotto di produzione. Quando un drive si guasta è possibile che una seconda unità smetta di funzionare dopo non molto tempo. Per la sostituzione di un drive in fault è suggeribile utilizzare un drive uguale in modo che tutte le unità del RAID abbiano le medesime caratteristiche non solo in termini di capacità ma anche di prestazioni. Attenzione a non sostituire mai il drive in fault con un drive che in precedenza faceva parte di un sistema RAID!

  6. Rebuild sì, Rebuild noL’operazione di Rebuild, come il termine suggerisce, ricostruisce l’array RAID in caso di problemi ad una unità. Molte unità disco offrono la funzionalità “hot plug” (inseribili a caldo) che permette di togliere e sostituire il disco malfunzionante o guasto senza necessità di spegnere il sistema e di conseguenza di interrompere il servizio. L’operazione di rebuild impiega normalmente molto tempo ma potrebbe risolvere il problema, ricostruendo il RAID dopo aver sostituito il disco in fault con uno nuovo. Tuttavia, se qualcosa nella procedura dovesse fallire ti ritroveresti con un ulteriore danno nel danno. L’esecuzione del rebuild non è dunque un’operazione priva di rischi ed è consigliabile eseguirla solo se si può fare affidamento su di un backup aggiornato e funzionante.

Di seguito vi proponiamo altri 8 suggerimenti per gestire un'eventuale processo di recupero dati da RAID.

RAID Hard disk

Come gestire un processo di Data Recovery da RAID

  1. Ricordati di numerare i drive
    Le unità di un sistema RAID hanno una loro precisa disposizione nell’array. Numera i drive con la posizione che occupano nella catena RAID per essere in grado di ricostruire la posizione fisica di ciascuna unità in caso di bisogno o qualora dovessi inviare i drive ad un fornitore di recupero dati. L’operazione in realtà potrebbe anche non essere necessaria, al giorno d’oggi infatti i singoli drive del RAID hanno un’area riservata dove sono memorizzate le informazioni sul RAID stesso. In questo caso, inserire il drive in uno slot piuttosto che in un altro non danneggerà la configurazione a patto che le informazioni sul RAID siano ancora integre e purtroppo questo non sempre accade.

  2. Non utilizzare utility di riparazione in caso di corruzione dei dati su RAID
    Problemi del controller oppure improvvisa mancanza di energia elettrica: il file system potrebbe risultare corrotto o impossibile da montare, oppure i dati essere inaccessibili. Non lanciare utility per la riparazione del volume poiché esse svolgono operazioni di scrittura e corri il rischio di apportare ulteriori danni alla struttura logica delle informazioni e di rendere più difficoltose eventuali operazioni di recupero dei dati.

  3. Attenzione alle “opzioni di default”
    La maggior parte degli utenti utilizza il sistema configurato con le impostazioni standard (default). Personale esperto può però variare queste opzioni per rendere il RAID più sicuro di quanto non fosse in origine, implementando ad esempio un livello RAID 6 invece che RAID 5. In caso di problemi, però, gli utenti sono generalmente portati a provare differenti opzioni compresa quella di ripristinare le opzioni di default (reset to default options). Nel nostro esempio, verrà avviata una configurazione RAID 5 che andrà a sovrascrivere la struttura RAID 6 con conseguente perdita dei dati.

  4. Spegni subito!
    Nel caso di dati persi a causa di una cancellazione accidentale, l’errore umano è sempre in agguato, premi subito l’interruttore “Power OFF” del tuo sistema. Questo brusco metodo si rende necessario perché utilizzando la classica funzione di shoutdown inevitabilmente si corre il rischio di sovrascrivere aree di sistema dove potrebbero trovarsi proprio le informazioni da recuperare. Se un hard disk emette rumori anomali la procedura da seguire è la medesima, in questo caso l’obiettivo è ridurre l’entità del danno fisico (tipicamente un head-crash dove la testina produce solchi sul piatto del disco rimuovendo lo strato magnetico che conserva i dati)

  5. Parola d’ordine: backup!
    Se stai pensando di apportare delle modifiche al sistema RAID desisti se non sei certo di avere un backup aggiornato e funzionante. Lavorare o modificare una configurazione RAID potrebbe accidentalmente portare ad una perdita di dati, che potrai risolvere in autonomia ripristinando il backup.

  6. Restore del backup
    Evita di ripristinare il backup direttamente sul sistema RAID dove i dati sono stati persi, se il backup non fosse aggiornato o funzionante oppure la procedura non andasse a buon fine ti ritroveresti ad aver sovrascritto l’unica sorgente dati dai quali si sarebbe potuto tentare il recupero.

  7. Assistenza tecnica del produttore
    In caso di perdita dei dati da un sistema RAID è normale rivolgersi all'assistenza tecnica fornita dal produttore dell’hardware, soprattutto su sistemi particolarmente avanzati e complessi. Ricorda però che l’assistenza tecnica del produttore ha come obiettivo quello di rimettere in funzione l’apparato e non il recupero dei dati. I tecnici intervengono sostituendo le unità guaste e configurando il sistema perché sia nuovamente operativo dal punto di vista fisico. Informa l’assistenza tecnica del produttore che hai necessità di consultare anche un fornitore di recupero dati. Il rischio è quello di avere il tuo sistema perfettamente funzionante ma senza alcuna possibilità di recuperare i dati che conteneva.

  8. Hai perso i dati, cosa fare?
    La complessità del recupero dati RAID è riconducibile a tre fattori:
    1) fisicamente il RAID è un sistema di più dischi dove l’organizzazione delle informazioni differisce in modo sostanziale dalla memorizzazione su singolo hard disk o su singolo SSD
    2) i dati su RAID nella maggior parte dei casi riguardano strutture complesse come Virtual Machine, Database, Gestionali con formati proprietari, ecc.
    3) l’architettura tecnologica di un RAID di classe Enterprise è molto complessa e avanzata e spesso utilizza anche hardware proprietario

Se vuoi approfondire le diverse configurazioni RAID leggi il nostro approfondimento.

Recuperare i dati è possibile ma la scelta del fornitore è veramente determinante ai fini del successo dell’intervento e della possibilità di riottenere i dati persi.

Seleziona una società di recupero dati in grado di offrirti tutta la professionalità e le competenze che servono per gestire al meglio questi complessi scenari. Molti casi richiedono anche lo sviluppo di tool specifici o di adattare tool esistenti allo specifico caso, il tuo fornitore di recupero dati dovrebbe essere in grado di sviluppare nei propri centri di ricerca tutto il necessario per gestire nel migliore dei modi il tuo caso. Infine, il fornitore deve offrire i servizi di data recovery 24h/7gg, un sistema RAID svolge compiti business critical e hai bisogno di tornare operativo rapidamente per ridurre i costi di fermo macchina.