Les over data geschiedenis: RAID-technologie

donderdag 4 november 2021 door Ontrack-team

RAID Technology

Als het gaat om de IT-industrie, komt het niet vaak voor dat een technologie die vele decennia geleden is ontwikkeld nog steeds belangrijk genoeg wordt geacht om nog steeds op grote schaal te worden gebruikt door beheerders en andere gebruikers. Zelfs moderne servers en opslagsystemen draaien RAID-technologie - meestal in ondernemingen, maar het komt ook vaker voor in NAS-systemen voor consumenten. RAID bestaat al meer dan 30 jaar en speelt tot op de dag van vandaag nog steeds een belangrijke rol bij gegevensopslag. Waarom is dat? Ik ben blij dat u dat vraagt.

Laten we bij het begin beginnen.

In 1987 vonden David Patterson, Garth A. Gibson en Randy Katz de term RAID uit op het moment dat ze op de Universiteit van Californië in Berkeley zaten. Het jaar daarop publiceerden ze een paper over de "Behuizing voor redundante arrays van goedkope schijven" op de SIGMOD-conferentie in juni 1988. In die tijd waren harde schijven nog vrij duur en was het niet alleen gebruikelijk om de gegevensopslag "slank" te houden, maar ook een noodzaak. Bovendien gebruikten bedrijven enorme mainframecomputers omdat desktopcomputers niet op grote schaal waren geïntroduceerd op de werkplek. Dit begon echter te veranderen toen de acceptatie en het gebruik van personal computers aan populariteit won.

Bijgevolg waren harde schijven voor de eerste niet-mainframe-computers veel goedkoper dan die die gebruikt werden in mainframesystemen; daarom hebben Garth, Gibson en Katz het concept RAID ontwikkeld. Ze voerden aan dat verschillende aangesloten en goedkopere harde schijven qua prestaties beter zouden zijn dan een enkele topmainframeschijf. En hoewel het gebruik van veel harde schijven betekende dat het uitvalpercentage zou toenemen, was het mogelijk om ze te configureren voor redundantie, zodat de betrouwbaarheid van een dergelijke array veel groter zou zijn dan die van een grote enkele mainframeschijf.

Wat is RAID-opslag?

RAID is gebaseerd op het concept dat gegevens zich verspreiden of repliceren over meerdere goedkope of onafhankelijke schijven. Schijven in het systeem zijn zo geconfigureerd dat gegevens kunnen worden verdeeld of gerepliceerd over twee of meer schijven voor verdeling van de belasting of om gegevens te helpen herstellen als een schijf uitvalt. Er zijn twee technische manieren om dat te bereiken: ofwel door een hardware-oplossing (een speciale RAID-controller) of een software-oplossing, die karakteristiek is voor moderne besturingssystemen. Op hardware gebaseerde systemen beheren de RAID onafhankelijk van de hostcomputer met behulp van een RAID-controller, zodat het besturingssysteem zich niet bewust is van de technische werking van de RAID en het hele opslagsysteem ziet alsof het een enkel volume is dat op de hostcomputer is aangesloten.

Naast deze technische implementaties is het RAID-concept gebaseerd op de volgende drie fundamentele principes:

  1. Pariteit - een manier om informatie over een RAID-systeem te verspreiden waarmee gegevens kunnen worden hersteld in het geval van een schijfstoring.
  2. Redundantie - het dupliceren van kritieke componenten in de systeemarchitectuur om de betrouwbaarheid te vergroten en als een fail-safe te fungeren. In wezen zorgt het ervoor dat meerdere componenten falen voordat het hele systeem uitvalt en in het geval van RAID-systemen zijn de componenten de schijven.
  3. Spiegelen - wanneer dezelfde gegevens worden gedupliceerd van de ene schijf naar de andere. Striping is een andere methode waarbij gegevens over meerdere schijven worden geschreven. Verschillende RAID-opstellingen gebruiken een of meer van deze technieken, afhankelijk van de systeemvereisten.

Op basis van deze principes zijn de volgende standaard RAID-niveaus ontwikkeld:

  • RAID 0 gebruikt striping en is het meest basale RAID-niveau. Het biedt geen redundantie, maar het verhoogt wel de prestaties. Gegevens worden gestriped over ten minste twee schijven en met elke schijf die wordt toegevoegd, wordt de lees-/schrijfprestatie en opslagcapaciteit vergroot over één enkele schijf. Als een schijf uitvalt, kan de RAID-controller deze niet opnieuw opbouwen.
  • RAID 1 gebruikt spiegelen, wat, zoals de naam al doet vermoeden, dezelfde gegevens over twee schijven spiegelt en daarom het laagste niveau van RAID-redundantie biedt. RAID 1 kan leesprestaties verdubbelen over een enkele schijf, maar het geeft geen verhoging van de schrijfsnelheid. Met dit niveau kan één schijf defect raken.
  • RAID 5 is een veel voorkomende configuratie en geeft een behoorlijk compromis tussen betrouwbaarheid en prestaties. Het levert winst op het gebied van leessnelheden, maar geen toename in schrijfprestaties. RAID 5 introduceert pariteit, die in totaal de ruimte van één schijf in beslag neemt. Dit niveau kan één schijffout aan. Als u een hot spare hebt geconfigureerd als een 5e schijf, kan deze als een niet-actieve schijf in het systeem zitten zonder dat er gegevens op worden opgeslagen. Als een schijf uitvalt, kunnen de gegevens opnieuw worden opgebouwd naar de hot spare door de gegevens in pariteit over de andere schijven te gebruiken. Zodra de gegevens opnieuw zijn opgebouwd, kunt u de defecte schijf verwijderen en vervangen door een nieuwe, die de nieuwe hot spare wordt.
  • RAID 6 neemt het concept van RAID 5 en voegt extra redundantie toe met dubbele pariteit. Hierdoor kunnen gegevens opnieuw worden aangemaakt, zelfs als twee schijven binnen de array defect raken. De dubbele pariteit is verspreid over alle schijven en neemt de ruimte in beslag van twee schijven.

In de loop der jaren zijn er veel meer RAID-niveaus ontwikkeld, voornamelijk door fabrikanten van RAID-systemen. Tegenwoordig hebben we RAID-niveaus variërend van RAID 0 tot RAID 61 en hoger, waarbij grotere bedrijven aangepaste RAID-niveaus creëren om verschillende toepassingen en infrastructuurvereisten te ondersteunen.

Schijfstoringen en de gevaren van RAID

Als er een schijffout optreedt in een RAID 1 of RAID 5-configuratie, mag de gebruiker de defecte schijf pas vervangen als er een back-up is gemaakt van alle gegevens van de resterende schijven. In veel gevallen, vooral wanneer de oplossing schijven gebruikte die uit dezelfde productie kwamen, is de kans dat een andere schijf binnenkort ook defect raakt vrij groot. En hier schuilt het gevaar van dit concept:

Zelfs met alle voordelen die RAID biedt, waaronder betere prestaties en gegevensbeveiliging, vergeten gebruikers vaak dat RAID geen back-up is. RAID kan worden gebruikt in combinatie met back-ups, waardoor het hele opslagsysteem veel veiliger is, maar RAID mag nooit worden gebruikt in plaats van een back-up. Integendeel, wanneer een RAID-systeem uitvalt als gevolg van bijvoorbeeld een defecte hardware RAID-controller, is het veel ingewikkelder om de RAID aan de gang te krijgen en verloren gegevens te herstellen.

NAS-systemen zijn betaalbaarder geworden voor thuisgebruikers. Ze gebruiken de ingebouwde RAID-configuraties in combinatie met andere geavanceerde opslagtechnologieën, zoals deduplicatie, om zoveel mogelijk ruimte uit hun systeem te halen. Maar dit heeft wel een prijs; in veel gevallen zijn deze systemen verkeerd ingesteld en bij een storing gaat het hele systeem kapot.

Of u nu een thuisgebruiker bent of een IT-beheerder van een onderneming, het is belangrijk om zorgvuldig te overwegen welk RAID-niveau bij uw behoeften past, of zelfs helemaal niet. Onthoud dat nalatigheid in het begin kan leiden tot ernstige problemen, hoge kosten en mogelijk gegevensverlies aan het einde 

Nieuwe manieren om gegevens op te slaan worden nog steeds onderzocht, uitgevonden en in de loop van de tijd ontwikkeld, maar gezien de staat van dienst is het waarschijnlijk dat RAID niet snel zal verdwijnen.

Als u RAID-gegevensherstel nodig hebt, aarzel dan niet om contact op te nemen met de experts van Ontrack.