Un serveur critique de bases de données effacé par erreur

févr. 17, 2020

Situation

Un fournisseur de services gérés basé en Corée a tenté de modifier la configuration du système NetApp de son client lorsqu'un ingénieur a incorrectement lancé une commande « dd » sur certains LUN, effaçant ainsi les données faisant partie du serveur Sybase de production du client. Sans accès aux données, le fournisseur de services gérés a potentiellement été confronté à la perte de contrat de son client, ainsi qu'à d'éventuels coûts de responsabilité.

Le client disposait d'un système NetApp FAS8060 contenant 161 disques durs SAS de 900 Go, organisés en deux agrégats distincts (68 disques + 93 disques). Le client présentait 3 x 468 Go FC LUN de chaque agrégat vers un serveur Sybase. Les 6 LUN au total ont été combinés en un seul pool de disques, avec trois volumes logiques extraits du pool. Une commande « dd » incorrecte avait écrit des zéros sur environ 45 Go de l’un des volumes logiques, et ce volume n’était plus visible par le serveur Sybase.

Solution

Lors de la consultation initiale, notre ingénieur a demandé au client de mettre les agrégats hors ligne pour éviter tout autre dommage par écrasement. Les agrégats ont été mis hors ligne 12 heures après l'événement de perte de données d'origine. Le client a présenté les 161 disques durs des deux agrégats à une seule machine Windows et l'a connecté au serveur RDR (Remote Data Recovery) d'Ontrack. L'inspection initiale a montré que les deux agrégats étaient nommés « aggrO », ce qui a éliminé la capacité de notre ingénieur à reconstruire automatiquement l'agrégat. Les lecteurs ont été triés en groupes d'agrégats qui ont été reconstruits manuellement. Nos ingénieurs ont ensuite été en mesure de reconstruire les agrégats à un point dans le temps aussi proche que possible, mais avant que les dommages « dd » ne se produisent.

Résolution

Notre ingénieur n'a pas pu extraire ou examiner les données internes car les volumes logiques étaient utilisés comme stockage RAW par le serveur Sybase. Les six LUN ont ensuite été extraits sous forme de fichiers plats vers un stockage externe. Le support NetApp a pu aider à présenter ces LUN au serveur Sybase. Les volumes logiques récupérés ont réussi les contrôles d'intégrité sur le serveur Sybase et le client a confirmé que tout fonctionnait correctement. Le serveur de base de données de l’utilisateur final a pu être remis en ligne quelques jours après l’échec sans perte de données.