Jak poradzić sobie z awarią serwera Exchange

by Dave Logue wtorek, 30 sierpnia 2016

Duża firma produkcyjna doświadczyła niespodziewanej utraty danych w swoim systemie poczty elektronicznej w wyniku serii awarii.

Firmy, które doświadczają awarii systemu poczty elektronicznej mogą stracić wiele dni produktywności, a gdy pracownicy IT walczą o rozwiązanie problemu, koszty rosną wykładniczo z każdą minutą przestoju.  Awaria serwera Exchange ilustruje, w jaki sposób dedykowane narzędzie do zarządzania i przywracania danych mogło zapewnić szybsze przywrócenie systemu.

Wielokrotne awarie

Duża firma produkcyjna doświadczyła niespodziewanej utraty danych w swoim systemie poczty elektronicznej w wyniku serii awarii.  Działał system serwerów klastrowanych wykorzystujący serwer Exchange obsługujący ponad 1000 użytkowników, ale z powodu lokalnego przechowywania plików dziennika, na jednym z serwerów klastra zaczęło brakować miejsca na dysku i wystąpiły problemy z wydajnością.  Wkrótce potem drugi węzeł w macierzy serwerów uległ awarii i nie mógł zamontować slotu informacyjnego.  Zespół wsparcia technicznego firmy Microsoft pomógł pracownikom działu IT, przenosząc serwer w tryb offline, a po przeprowadzeniu napraw i wykonaniu kopii zapasowej, serwer był znowu online.

Serwer działał dobrze przez około jeden dzień, ale użytkownicy zaczęli zauważać problemy z harmonogramem spotkań i uszkodzeniem wiadomości.  Aby temu zaradzić, postawiono inny serwer Exchange i zmigrowano skrzynki użytkowników na nowy serwer, co pozwoliło ustabilizować pracę serwerów w klastrze.  Kilka dni później system serwerów klastrowanych ponownie uległ awarii. Dział IT skonfigurował kolejny tymczasowy serwer komunikacyjny, dzięki czemu użytkownicy mogli nadal wysyłać i odbierać wiadomości, jednak archiwalne dane wiadomości nie były dostępne.  Ponieważ użytkownicy mogli w minimalnym stopniu funkcjonować ze swoją pocztą elektroniczną, rozpoczęto prace nad wydobyciem zarchiwizowanej poczty użytkowników z oryginalnego magazynu informacji, ale przywrócenie kopii zapasowej nie przyniosło żadnych rezultatów.  W tym momencie zespół IT zmagał się z problemami od prawie 2 tygodni, a użytkownicy byli coraz bardziej sfrustrowani.

Problemy związane z kopiami zapasowymi

Kierownictwo zaczęło wymagać od dyrektora IT codziennych aktualizacji, podczas gdy frustracja i napięcie wśród całego zespołu zajmującego się przesyłaniem wiadomości wciąż rosły.  Na miejsce wezwano dostawcę oprogramowania do tworzenia kopii zapasowych, a jego eksperci zaczęli analizować dzienniki kopii w poszukiwaniu rozwiązania.  Ustalono, że wadliwa maszyna taśmowa w systemie biblioteki kopii zapasowych spowodowała ich uszkodzenie.  Niestety, uszkodziło to również inne kopie zapasowe przechowywane lokalnie.  Jedynym sposobem na odtworzenie zarchiwizowanych wiadomości e-mail użytkowników pozostał niezamontowany Information Store z klastrowanych serwerów komunikacyjnych.  Aplikacja naprawcza Exchange (Eseutil) została uruchomiona na kopii 100 GB Information Store, ale po 12 godzinach nie było żadnych informacji czy naprawa się powiedzie i czy uda się odzyskać dane.

Pomoc od ekspertów

Firma nie wiedziała co dalej - sprzęt zawodził, próby przywrócenia danych spełzały na niczym, a zespół IT był wyczerpany.  W końcu sprowadziła profesjonalną firmę zajmującą się odzyskiwaniem danych, aby rozpocząć ekstrakcję skrzynek pocztowych.  W ciągu mniej niż 24 godzin ponad 1400 skrzynek pocztowych zostało pomyślnie przywróconych i połączonych z istniejącym serwerem wiadomości.

Ostatecznie, dział IT odbudował środowisko serwera Exchange, podczas gdy użytkownicy pracowali z serwera tymczasowego, a przyszłe prace konserwacyjne przeniosły użytkowników do stałego systemu.

W tym przypadku zespół IT zrobił wszystko, co mógł, aby uratować swój system; wezwał wszystkich swoich dostawców i wcześnie zaangażował służby wsparcia firmy Microsoft. Z punktu widzenia ciągłości biznesowej zrobili wszystko jak należy, pomimo wyzwań i przeszkód związanych z ciągle psującym się systemem.

Patrząc z perspektywy czasu, można było użyć dedykowanego narzędzia do zarządzania Exchange, aby przetworzyć oryginalny Information Store i wyodrębnić skrzynki pocztowe bezpośrednio na tymczasowy serwer email.  W ten sposób można było uzyskać dostęp do wymaganych danych bez konieczności zmiany zawartości wewnętrznej bazy danych.  Eseutil, na przykład, ma tendencję do nadpisywania krytycznych meta-danych i tabel wiadomości, jeżeli wykryje nieczytelne uszkodzenie.