Cet article fait suite à l'article original intitulé Prévenir la perte de données lors des reconstructions RAID et des disques et de systèmes RAID (partie 1). Depuis la publication de l’article initial, plusieurs questions ont été soulevées concernant les reconstructions de RAID, la gestion des disques et la prévention des pertes de données. Cette seconde partie vise à y répondre de manière détaillée.
L'un de nos lecteurs a noté : "Dans votre premier exemple, la parité est absente de la bande 4. Vous n'avez pas indiqué comment cette bande peut être reconstruite s'il n'y a pas de parité".
La parité est absente de la bande 4 parce qu'elle devrait se trouver sur le disque manquant ou endommagé. En d'autres termes, dans une matrice saine, elle se trouverait au début de la bande 4. Pour ce qui est de la reconstruction, dans cet exemple, toutes les données sont intactes et le secteur de parité sur le disque dur 1 de la bande 4 est reconstruit par XOR des données des disques 2 à 4 (P4 = XOR (D9, D8, D7). Voir ci-dessous l'image du disque reconstruit.
Une autre question qui revient fréquemment depuis la publication de l’article initial concerne les autres causes possibles de perte ou de corruption des données sur un disque ou dans une configuration RAID. L’un de nos lecteurs a demandé :
« Votre deuxième exemple montre comment les données peuvent être perdues si une reconstruction incorrecte est effectuée, par exemple la reconstruction de la parité. Est-ce le seul cas ? » L’expression « tel que » laisse entendre qu’il pourrait exister d’autres types de reconstructions susceptibles de poser problème.
Il existe plusieurs types de reconstructions pouvant entraîner une perte de données. Voici quelques exemples de scénarios où une reconstruction incorrecte peut provoquer ce type de problème :
À titre d'exemple, l'un des cas de perte de données RAID les plus courants est celui où la parité est mise à jour avec un disque mis à zéro dans la configuration RAID (reconstruction du RAID au lieu de la reconstruction du disque dur). Une fois la parité écrasée, les données utilisateur manquantes du disque dur endommagé ou manquant ne peuvent pas être recréées.
Un autre scénario de perte de données survient lorsqu’une matrice RAID est désordonnée, notamment lors d’une reconstruction. Dans ce cas, une reconstruction de la parité sur des disques défectueux peut écraser les données valides de l’utilisateur.
Dans l'exemple ci-dessus, les données qui se trouvaient à l'origine sur le disque dur 3 de la bande 1 sont maintenant écrasées par la nouvelle parité. La parité qui se trouve sur le disque dur 4 dans la bande 1 est maintenant traitée comme des données utilisateur au lieu de la parité, ce qui entraîne une corruption logique. En outre, les données qui se trouvent sur le disque dur 2 dans la bande 1 sont faussées, ce qui contribue également à la corruption du volume logique. Toutes les zones marquées en rouge seraient endommagées.
Même sans reconstruction de la parité, une corruption logique du volume peut survenir. Cette corruption déclenche souvent l’exécution d’outils de réparation tels que CHKDSK ou FSCK. Ces utilitaires tentent de « corriger » la corruption logique, alors que le problème se situe en réalité au niveau du RAID. Cette intervention aggrave la situation, entraînant parfois la suppression des métadonnées et rendant la récupération du système impossible.
Un autre scénario est celui où un RAID est reconstruit après une défaillance de deux disques en utilisant un disque dégradé qui a été forcé en ligne et un nouveau disque. Cette reconstruction avec cette combinaison écrasera la "bonne" parité par une nouvelle "mauvaise" parité, rendant souvent le système irrécupérable ou les données inutilisables.
Le dernier exemple à illustrer est celui où la configuration RAID change et où les zones de parité et de données sont écrasées par la nouvelle configuration.
Supposons pour cet exemple que nous ayons une matrice RAID 5 avec une taille de bande de 64K. Le système d'exploitation lira les données des bandes en commençant par le disque dur 1 et les données représentées par M1. Il passera ensuite à M2, puis à D1 et ainsi de suite.
Si le contrôleur de réseau perd la configuration et que l'utilisateur force la configuration erronée, les données seront endommagées. Dans notre exemple, l'utilisateur a forcé une nouvelle configuration avec une taille de bande de 32K, divisant ainsi les données en deux.
Le système d'exploitation lira la première moitié de la première section de métadonnées représentée par M1.1. Ensuite, le système d'exploitation passe au disque suivant dans la bande et lit la première moitié de la section suivante de métadonnées représentée par M2.1. Cette opération entraîne une corruption logique qui rend les données inutilisables. Souvent, cela déclenche l'exécution d'outils de réparation de volume qui "réparent" les dommages logiques, ce qui peut entraîner des dommages supplémentaires, voire rendre le volume irrécupérable.
Comment vous protéger si vous êtes confronté à une telle situation ? Voici quelques conseils pour éviter ce type de perte de données de disque ou de RAID:
Créez une image des disques avant d'essayer de les reconstruire. Ainsi, si la reconstruction échoue, vos données sont protégées. Assurez-vous que le programme d'imagerie que vous choisissez permet d'obtenir une image forensique ou une image du disque au niveau du secteur ou du bloc.
Restaurez les sauvegardes sur un volume différent. Cela permet de s'assurer que tous les fichiers importants de la sauvegarde sont bons avant d'écraser éventuellement des données sur le volume actif.
En cas de problème RAID, testez la sauvegarde en la restaurant à un autre endroit ou en créant une image de chaque disque du RAID avant de tenter une reconstruction. Parfois, une reconstruction RAID ne fonctionne pas correctement et peut aggraver le problème.
Ne créez pas de nouveaux fichiers sur le disque à restaurer et ne continuez pas à exécuter des applications tant que les données importantes n'ont pas été récupérées. Les nouveaux fichiers peuvent écraser les fichiers à récupérer.
N'exécutez pas les outils de réparation du système de fichiers FSCK ou CHKDSK sur un disque virtuel à moins qu'une bonne sauvegarde n'ait été validée en la restaurant sur un volume différent. Ces outils de réparation supposent qu'il existe une bonne sauvegarde des données et peuvent écraser les pointeurs de fichiers pour rendre le système de fichiers cohérent. Si vous le souhaitez, ces outils peuvent être exécutés en mode lecture seule afin de détecter toute corruption majeure avant que les réparations ne soient effectuées.
Ne supprimez pas d'autres fichiers avant de récupérer les données supprimées. La suppression de fichiers inclut le déplacement de fichiers de la source vers un autre volume. Un déplacement est simplement une copie suivie d'une suppression. Si vous avez besoin d'une copie des données de la source, assurez-vous de les copier et non de les déplacer. Des fichiers supprimés supplémentaires peuvent compliquer la récupération des données.
N'essayez pas un logiciel de récupération de données si vous n'êtes pas sûr qu'il n'écrira rien sur le disque à récupérer. Certains logiciels de récupération tentent d'écrire sur le disque source et risquent d'endommager les tentatives de récupération ultérieures.
Contactez un professionnel de la récupération de données avant de tenter une récupération par vous-même. Il pourra vous indiquer les conséquences possibles de votre plan sur la récupération des données et vous proposer des suggestions pour une récupération autonome.
En savoir plus :