Lekcja historii danych: Technologia RAID

by Ontrack czwartek, 4 listopada 2021

RAID przetrwał ponad 30 lat i do dziś odgrywa ważną rolę w przechowywaniu danych. Dlaczego tak jest? Dobrze, że pytasz.

W przypadku branży IT nieczęsto zdarza się, że technologia opracowana wiele dekad temu jest nadal uważana za wystarczająco ważną, aby wciąż była szeroko stosowana przez administratorów i innych użytkowników. Nawet nowoczesne serwery i systemy pamięci masowej korzystają z technologii RAID - głównie w przedsiębiorstwach, ale stała się ona bardziej rozpowszechniona również w konsumenckich systemach NAS. RAID przetrwał ponad 30 lat i do dziś odgrywa ważną rolę w przechowywaniu danych. Dlaczego tak jest? Dobrze, że pytasz.

Zacznijmy od początku

W 1987 roku David Patterson, Garth A. Gibson i Randy Katz wymyślili termin RAID podczas studiów na Uniwersytecie Kalifornijskim w Berkeley. Rok później, w czerwcu 1988 roku, opublikowali artykuł zatytułowany "Case for Redundant Arrays of inexpensive Disks" na konferencji SIGMOD. W tym czasie dyski twarde były nadal dość drogie, a próba utrzymania "szczupłego" przechowywania danych była nie tylko powszechna, ale i konieczna. Ponadto firmy używały ogromnych komputerów mainframe, ponieważ komputery stacjonarne nie były szeroko stosowane w miejscu pracy. Zaczęło się to jednak zmieniać, ponieważ akceptacja i korzystanie z komputerów osobistych zyskały popularność.

W związku z tym dyski twarde dla pierwszych komputerów innych niż mainframe były znacznie tańsze niż te używane w systemach mainframe; dlatego Garth, Gibson i Katz opracowali koncepcję RAID. Argumentowali, że kilka połączonych i tańszych dysków twardych pokonałoby pojedynczy, najlepszy dysk twardy mainframe pod względem wydajności. I chociaż użycie wielu dysków twardych oznaczało wzrost awaryjności, możliwe było skonfigurowanie ich pod kątem nadmiarowości, aby niezawodność takiej macierzy mogła znacznie przewyższać niezawodność każdego dużego pojedynczego dysku mainframe.

Szczegóły dot. systemu przechowywania RAID

RAID opiera się na koncepcji rozprzestrzeniania lub replikacji danych na wielu niedrogich lub niezależnych dyskach. Dyski w systemie są skonfigurowane tak, aby dane mogły być dzielone lub replikowane na dwóch lub więcej dyskach w celu rozłożenia obciążenia lub w celu łatwiejszego odzyskania danych w przypadku awarii dysku. Istnieją dwa techniczne sposoby osiągnięcia tego celu: albo przez rozwiązanie sprzętowe (dedykowany kontroler RAID), albo rozwiązanie programowe, które jest zwykle zawarte w nowoczesnych systemach operacyjnych. Systemy sprzętowe zarządzają macierzą RAID niezależnie od komputera-hosta za pomocą kontrolera RAID, więc system operacyjny nie jest świadomy technicznego działania macierzy RAID i widzi cały system pamięci masowej tak, jakby był pojedynczym woluminem podłączonym do komputera-hosta.

Oprócz tych implementacji technicznych, koncepcja RAID opiera się na tych trzech podstawowych zasadach:

  • Równość  - sposób dystrybucji informacji w systemie RAID, który umożliwia przywrócenie danych w przypadku awarii dysku.
  • Redundancja - powielanie krytycznych komponentów w architekturze systemu w celu zwiększenia niezawodności i działania odpornego na awarie. Zasadniczo pozwala to na awarie wielu komponentów, zanim cały system ulegnie awarii, a w przypadku systemów RAID komponentami są dyski.
  • Odwzorowanie - gdy te same dane są duplikowane z jednego dysku na drugi. Dzielenie to kolejna metoda, w której dane są zapisywane na wielu dyskach. Różne konfiguracje RAID używają jednej lub więcej z tych technik, w zależności od wymagań systemowych.

W oparciu o te zasady opracowano następujące standardowe poziomy RAID:

  • RAID 0 : wykorzystuje dzielenie i jest najbardziej podstawowym poziomem RAID. Nie oferuje on redundancji, ale zwiększa wydajność. Dane są rozłożone na co najmniej dwóch dyskach, a przy każdym dodanym dysku wydajność odczytu/zapisu i pojemność pamięci masowej są zwiększane na jednym dysku. Jeśli jeden dysk ulegnie awarii, kontroler RAID nie będzie w stanie go odbudować.
  • RAID 1 : wykorzystuje odwzorowanie, które, jak sama nazwa wskazuje, odzwierciedla te same dane na dwóch dyskach, dlatego zapewnia najniższy poziom redundancji RAID. RAID 1 może podwoić wydajność odczytu na jednym dysku, ale nie zwiększa prędkości zapisu. Ten poziom pozwala na awarię jednego dysku.
  • RAID 5 : jest powszechną konfiguracją i daje przyzwoity kompromis między niezawodnością a wydajnością. Zapewnia wzrost prędkości odczytu, ale nie zwiększa wydajności zapisu. RAID 5 wprowadza równość, która zajmuje łącznie miejsce na jednym dysku. Ten poziom może poradzić sobie z jedną awarią dysku. Jeśli masz "hot spare" skonfigurowany jako piąty dysk, może on pełnić funkcję bezczynnego dysku w systemie bez zapisywania na nim danych. Jeśli jeden dysk ulegnie awarii, dane można odbudować na dysku hot spare, używając równych części danych z innych dysków. Po zakończeniu przebudowy danych możesz usunąć uszkodzony dysk i zastąpić go nowym, który staje się nowym dyskiem hot spare.
  • RAID 6 : przejmuje koncepcję RAID 5 i dodaje dalszą redundancję z podwójną równością. Pozwala to na odtworzenie danych, nawet jeśli dwa dyski ulegną awarii w macierzy. Podwójna równość jest rozłożona na wszystkich dyskach i zajmuje miejsce dwóch dysków.

Z biegiem lat zostało opracowanych znacznie więcej poziomów RAID, głównie przez producentów systemów RAID. Obecnie mamy poziomy RAID od RAID 0 aż do RAID 61 i nie tylko, a większe firmy tworzą niestandardowe poziomy RAID do obsługi różnych aplikacji i wymagań infrastruktury.

Awarie dysków i niebezpieczeństwa związane z RAID

Jeśli dojdzie do awarii dysku w konfiguracji RAID 1 lub RAID 5,użytkownik nie powinien wymieniać uszkodzonego dysku, dopóki nie upewni się, że wszystkie dane z pozostałych dysków są archiwizowane. W wielu przypadkach, zwłaszcza gdy rozwiązanie wykorzystywało dyski, które wyszły z tej samej produkcji, prawdopodobieństwo, że inny dysk również wkrótce ulegnie awarii, jest dość wysokie. I tu właśnie leży niebezpieczeństwo tej koncepcji:

nawet przy wszystkich korzyściach, jakie oferuje RAID, w tym lepszej wydajności i bezpieczeństwie danych, użytkownicy często zapominają, że RAID nie jest kopią zapasową. RAID może być używany w połączeniu z kopiami zapasowymi, dzięki czemu cały system pamięci masowej jest znacznie bezpieczniejszy, ale RAID nigdy nie może być używany zamiast kopii zapasowej. Wręcz przeciwnie, gdy system RAID ulegnie awarii z powodu nieprawidłowego działania sprzętowego kontrolera RAID, przykładowo znacznie bardziej skomplikowane jest uruchomienie macierzy RAID i odzyskanie utraconych danych.

Systemy NAS stały się bardziej przystępne cenowo dla użytkowników domowych. Korzystają z wbudowanych konfiguracji RAID w połączeniu z innymi zaawansowanymi technologiami pamięci masowej, takimi jak deduplikacja, aby uzyskać jak najwięcej miejsca z systemu. Ma to jednak swoją cenę; w wielu przypadkach systemy te są skonfigurowane niepoprawnie, a gdy wystąpi awaria, cały system się psuje.

Niezależnie od tego, czy jesteś użytkownikiem domowym, czy administratorem IT w przedsiębiorstwie, ważne jest, aby dokładnie rozważyć, jaki poziom RAID odpowiada Twoim potrzebom lub czy RAID jest w ogóle konieczny. Pamiętaj, że zaniedbanie na początku może skutkować poważnymi problemami, wysokimi kosztami i w końcu możliwą utratą danych. 

Nowe sposoby przechowywania danych są nadal badane, wymyślane i ewoluują w czasie, ale biorąc pod uwagę ich osiągnięcia, jest prawdopodobne, że RAID nie zniknie w najbliższym czasie.

Jeśli potrzebujesz odzyskiwania danych RAID, nie wahaj się skontaktować z ekspertami z Ontrack.