Comando de Limpieza Accidental Detiene Crítico Servidor de Base de Datos de Producción

lunes, 17 de febrero de 2020

The Situation

Un proveedor de servicios gestionados de Corea debía implementar cambios de configuración al sistema de NetApp de su cliente, cuando uno de los ingenieros inició incorrectamente un comando “dd” en algunas LUN, borrando efectivamente los datos que formaban parte del servidor Sybase de producción del usuario final.

Al no tener acceso a los datos, el proveedor de servicios gestionados podía perder el contrato con su cliente, y también sufrir demandas por perjuicios.

El cliente contaba con un sistema NetApp FAS8060 con 161 discos rígidos SAS de 900 GB, distribuidos en 2 agregados separados (68 discos + 93 discos). El cliente le presentaba 3 LUN FC de 468 GB de cada agregado a un servidor Sybase. Las 6 LUN en total se combinaban en un solo conjunto de discos, con tres volúmenes lógicos salientes del conjunto. Un comando “dd” incorrecto había escrito ceros en aproximadamente 45 GB de uno de los volúmenes lógicos, lo cual provocó que este volumen no fuera ya visible para el servidor Sybase.

The Solution

Durante la consulta inicial, nuestro ingeniero le indicó al cliente que debía poner “off line” los agregados para evitar daños más graves por sobreescritura. Esto se hizo 12 horas después del evento de pérdida de datos original. El cliente presentó los 161 discos rígidos de ambos agregado a una única máquina con Windows y conectó dicha máquina al servidor RDR (recuperación remota de datos) de Ontrack. La inspección inicial descubrió que ambos  agregados tenían el nombre “agrrO”, lo que imposibilitó que nuestros ingenieros pudieran reconstruir los agregados de forma automática. Los discos fueron organizados en grupos de  agregados y esos  agregados se reconstruyeron de forma manual. Nuestros ingenieros pudieron entonces reconstruir los  agregados hasta un punto en el tiempo anterior al evento “dd”, el más cercano posible, y los  agregados separados fueron reconstruidos a un punto en el tiempo separado por 2 minutos entre sí.

The Resolution

Nuestros ingenieros no pudieron extraer o examinar los datos internos porque que los volúmenes lógicos eran utilizados como almacenamiento RAW por el servidor Sybase. Las 6 LUN fueron entonces extraídas como archivos planos a un almacenamiento externo. El soporte de NetApp ayudó para presentar estas LUN al servidor Sybase de nuevo. Los volúmenes lógicos recuperados superaron las verificaciones de integridad sobre el servidor Sybase y el cliente confirmó que todo estaba funcionando de manera correcta. El servidor de base de datos del usuario final pudo ser llevado online luego de transcurridos algunos días de la falla, sin sufrir ninguna pérdida de datos.