Opdracht voor per ongeluk wissen haalt kritieke productie-database-server down.

feb 17, 2020

The Situation

Een in Korea gevestigde managed service provider probeerde configuratiewijzigingen aan te brengen in het NetApp-systeem van hun klant toen een technicus ten onrechte een 'dd'-opdracht startte op sommige LUN's, waardoor de gegevens die deel uitmaakten van de Sybase-productieserver van de eindgebruiker, effectief werden gewist. Zonder toegang tot de gegevens bestond voor de managed service provider het risico dat het contract met zijn klant verloren ging. Daarbij was er ook een risico om aansprakelijk gesteld te worden voor de kosten. De klant had een NetApp FAS8060-systeem met 161 x 900GB SAS HDD's, gerangschikt in twee afzonderlijke aggregates (68 schijven + 93 schijven). De klant presenteerde 3 x 468 GB FC LUN's van elk aggregate naar een Sybase-server. Het totaal van 6 LUN's werden gecombineerd tot een enkele Disk Pool, met drie logische volumes die uit de Pool werden gehaald. Een onjuist ‘dd’ -commando had nullen geschreven naar ongeveer 45 GB van een van de logische volumes, en dit volume was niet langer zichtbaar voor de Sybase-server.

The Solution

Tijdens het oorspronkelijke overleg heeft onze ingenieur de klant geïnstrueerd om de aggregates offline te halen om verdere overschrijfschade te voorkomen. De aggregates zijn 12 uur na het oorspronkelijke gegevensverlies offline gehaald. De klant presenteerde alle 161 HDD's van beide aggregates op een enkele Windows-machine en verbond deze met de RDR-server (Remote Data Recovery) van Ontrack. De eerste inspectie toonde aan dat beide aggregates 'aggrO' werden genoemd, waardoor onze ingenieur niet meer automatisch het aggregate kon herbouwen. De schijven werden gesorteerd in aggregates en de aggregates werden handmatig opnieuw opgebouwd. Onze ingenieurs waren toen in staat om de aggregates zo dicht mogelijk bij elkaar te brengen tot één tijdstip, maar voordat de ‘dd’ schade optrad. Hierbij werden de afzonderlijke aggregates opnieuw opgebouwd tot één tijdstip binnen twee minuten na elkaar.

The Resolution

Onze ingenieur kon de interne gegevens niet extraheren of onderzoeken omdat de logische volumes door de Sybase-server als RAW-opslag werden gebruikt. Alle zes LUN's werden vervolgens uitgepakt als platte bestanden naar externe opslag. NetApp-ondersteuning was in staat om te helpen deze LUN's weer aan de Sybase-server te presenteren. De herstelde logische volumes hebben de integriteitscontroles op de Sybase-server doorstaan en de client heeft bevestigd dat alles naar behoren werkte. De databaseserver van de eindgebruiker kon binnen een paar dagen na de storing weer online worden gebracht zonder verlies van gegevens.