A l’ère du Big Data, il est nécessaire d'adopter de nouvelles solutions de stockage de données afin de gérer l'accroissement du volume de données. Les méthodes de stockage traditionnelles (Stockage de fichiers et Stockage par bloc) ont du mal à gérer de très grands volumes de données non structurées. La solution à ce problème est le stockage d'objets.
- Mais qu'en est-il de la protection des données et de la récupération de données ?
- Comment cette nouvelle approche permet-elle de gérer la perte de données ?
Le codage d’effacement comme mesure de sécurité contre la perte de données dans les systèmes de stockage basés sur des objets
Pendant longtemps, le RAID était le meilleur support pour protéger le système contre la perte de données due à la défaillance matérielle d'un disque dur endommagé ou autre. Le RAID 6, par exemple, utilisait une technique de calcul de parité pour récupérer des données sur des disques à faible capacité de stockage. Mais, avec les disques de plus de 10 téraoctets, une récupération complète peut prendre des mois. De plus, il est difficile de définir un délai de récupération exacte avant de démarrer le processus de récupération puisque ceci dépend de la charge de travail effectué. C'est la raison pour laquelle le RAID n'est pas utilisé comme support pour prévenir les risques de perte de données dans les systèmes de stockage objet. De plus, lorsqu'un autre disque tombe en panne lors de la reconstruction d’un RAID, les données sont définitivement perdues. C'est pour cette raison que le mécanisme du codage d'effacement a été conçu spécialement pour les volumes importants de données. Le stockage en mode objet est une architecture de stockage qui gère les données comme des objets.
Comme il a été indiqué avant, les objets peuvent contenir n'importe quelle structure de données et peuvent être n’importe où : sur un site particulier, sur de nombreux sites différents ou dans le cloud. Du fait de la compatibilité de leur structure, l'accès aux objets peut se faire via n'importe quel appareil ayant accès à Internet.
Pour sécuriser davantage les objets contre la perte de données, le codage d'effacement entre en jeu :
Dans un système de stockage objet utilisant le mécanisme de codage d'effacement, les objets sont divisés en plusieurs compartiments. Ces compartiments de données ont généralement une taille de plusieurs mégaoctets et sont donc beaucoup plus gros que les blocs créés normalement sur un système RAID protégé.
Le mécanisme de codage d'effacement est similaire à la méthode de récupération de données sur un RAID classique. Ici aussi, un ensemble d’informations supplémentaires relatives aux données réelles (les métadonnées) s’ajoute aux objets. Pour récupérer les données détruites, il est nécessaire de récupérer une quantité minimale de ces métadonnées. Par exemple, en utilisant une méthode de codage d’effacement, un bloc de données « créé » 16 fragments dont 12 sont utilisés pour reconstruire les informations réelles ou « originaux ».
Le fractionnement des données et des objets en fragments présente certains avantages : Étant donné que ces fragments sont sauvegardés sur différents disques, la panne d’un lecteur n'entraîne pas la perte de données. Et encore mieux : Comme tout ne doit pas être reconstruit à partir des données d'origine, mais seulement un nombre défini de fragments, le processus de récupération est beaucoup plus rapide que son homologue RAID. De plus, c’est d’autant plus facile de stocker des fragments sur un autre emplacement que de stocker une sauvegarde complète sur un système de stockage externe. L'administrateur doit seulement s'assurer de la disponibilité des fragments en cas de besoin.
Les ingénieurs en récupération de données sont-ils capables de récupérer des données à partir des stockages d'objets ?
En raison du fait que les systèmes de stockage d'objets sont hautement sécurisés, il est difficile d’accéder aux objets et pour cause, aucune tentative de récupération de données n’a été aboutie, jusqu'à présent, dans les laboratoires de récupération de données d'Ontrack présents dans le monde entier.
Cependant, les ingénieurs en récupération de données d'Ontrack ont déjà réussi à récupérer les données sur une version bêta d'un système de stockage : le système EMC Isilon, spécialement conçu pour le stockage de grandes quantités de données. Pour faire simple, le stockage EMC permet de stocker toutes les données contenues dans différents disques durs sur un seul et même Data Lake, ou lac des données.
Cette méthode est comparable au concept de stockage d'objets. L'idée est de stocker des données dans un grand lac de données. Pour récupérer les données, les ingénieurs d'Ontrack travaillant au département R&D ont développé des outils innovant qui permettent d’analyser rapidement un lecteur OneFS et trouver des structures de données manquantes ou corrompues. Après que les ingénieurs aient enfin pris connaissance de la structure originale du système, ils ont pu récupérer la quasi-totalité des 4 millions de fichiers manquants.
Cet exemple montre bien qu’il est possible de récupérer des données à partir d'un système de stockage d'objets dans le cas où les outils de récupération de données intégrés et les fonctions de sécurité présente une faille dans leur système. Cependant, comme le montre ce cas, il faudra déployer de gros efforts pour inspecter la structure des systèmes, analyser et décomposer les plusieurs couches de données ou assembler des parties sur différents disques jusqu'à ce que les données d'origine soient accessibles.
Et il y a d'autres défis à relever dans un système de stockage d'objets : Puisque la gestion des emplacements des données dans un système de stockage d'objets est faite dans l'application elle-même, cela signifie que dans ce cas une solution spécifique doit être développée pour aider les ingénieurs à trouver où sont stockés les blocs de données sur des centaines de disques durs et les blocs de données manquants qui doivent être récupérés, par exemple, par le biais du codage d'effacement ou de techniques de récupération de données spécifiques.