it-swarm.com.de

Was genau ist ein URE?

Ich habe mich in letzter Zeit mit RAID5 gegen RAID6 befasst und sehe immer wieder, dass RAID5 aufgrund der URE-Bewertungen und der zunehmenden Größe der Laufwerke nicht mehr sicher genug ist. Grundsätzlich besagt der größte Teil des Inhalts, den ich gefunden habe, dass Sie in RAID5 bei einem Festplattenfehler, wenn der Rest Ihres Arrays 12 TB beträgt, eine fast 100% ige Chance haben, eine URE zu erfüllen und Ihre Daten zu verlieren.

Die 12-TB-Zahl ergibt sich aus der Tatsache, dass Festplatten mit 10 ^ 14 Bit bewertet sind, um ein URE zu erreichen.

Nun, es gibt etwas, das ich hier nicht bekomme. Ein Lesevorgang wird von dem Kopf ausgeführt, der sich auf dem Sektor befindet. Was dazu führen kann, dass der Lesevorgang fehlschlägt, ist entweder, dass der Kopf stirbt oder der Sektor stirbt. Es kann auch sein, dass das Lesen aus einem anderen Grund nicht funktioniert (ich weiß nicht, wie eine Vibration den Kopf zum Springen gebracht hat ...). Lassen Sie mich also alle drei Situationen ansprechen:

  • das lesen funktioniert nicht: das ist nicht nicht behebbar, oder? es kann erneut versucht werden.
  • der Kopf stirbt: Dies wäre sicherlich nicht wiederherstellbar, aber das bedeutet auch, dass der vollständige Plattenteller (oder zumindest die Seite) nicht lesbar wäre. Es wäre alarmierender, nicht wahr?
  • der Sektor stirbt: ebenfalls völlig nicht wiederherstellbar, aber hier verstehe ich nicht, warum die 4-TB-Festplatte für das URE mit 10 ^ 14 und die 8-TB-Festplatte für das URE mit 10 ^ 14 bewertet wird, was bedeuten würde, dass die Sektoren auf dem 8 TB (höchstwahrscheinlich neuere Technologien) sind halb so zuverlässig wie die 4 TB, was keinen Sinn ergibt.

Wie Sie sehen, macht von den 3 von mir identifizierten Fehlerpunkten keiner Sinn. Was genau ist ein URE, meine ich konkret?

Gibt es jemanden, der mir das erklären kann?

Bearbeiten Sie 1

Nach der ersten Welle von Antworten scheint der Grund dafür zu sein, dass der Sektor versagt. Gut ist, dass Firmware, RAID-Controller und OS + -Dateisystem über Verfahren verfügen, um dies frühzeitig zu erkennen und Sektoren neu zuzuweisen.

Nun, ich weiß jetzt, was ein URE ist (eigentlich ist der Name ziemlich selbsterklärend :)).

Ich bin immer noch verwirrt über die zugrunde liegenden Ursachen und vor allem über die stabile Bewertung, die sie geben.

Einige führten den fehlerhaften Sektor auf externe Quellen (kosmische Wellen) zurück. Ich bin dann überrascht, dass die URE-Rate dann auf der Lesezahl und nicht auf dem Alter basiert. Die kosmischen Wellen sollten tatsächlich mehr auf eine ältere Festplatte wirken, nur weil sie freigelegt wurde mehr noch, ich denke, das ist eher eine Fantasie, obwohl ich mich irren könnte.

Nun kommt der andere Grund, der sich auf den Verschleiß der Scheibe bezieht, und einige wiesen darauf hin, dass höhere Dichten schwächere magnetische Domänen ergeben, was absolut sinnvoll ist und ich würde der Erklärung folgen. Aber wie hier gut erklärt wird , die neueren Festplatten unterschiedlicher Größe werden meistens erhalten, indem mehr oder weniger der gleiche Plattenteller (und dann die gleiche Dichte) in das HDD-Gehäuse eingelegt werden. Die Sektoren sind gleich und alle sollten die gleiche Zuverlässigkeit haben, daher sollten größere Festplatten eine höhere Bewertung haben als kleinere Festplatten, da die Sektoren weniger gelesen werden. Dies ist nicht der Fall. Warum? Dies würde jedoch erklären, warum die neueren Festplatten mit neuerer Technologie keine bessere Bewertung erhalten als die alten, einfach weil der bessere Tech-Gewinn durch den Verlust aufgrund höherer Dichte ausgeglichen wird.

14
Memes

Ein URE ist ein nicht behebbarer Lesefehler. Es ist etwas passiert, das dazu geführt hat, dass das Lesen eines Sektors fehlgeschlagen ist und das Laufwerk nicht reparieren kann. Die Antriebselektronik ist hochentwickelt und gibt die Daten nur weiter, wenn sie sie korrekt von der Festplatte lesen konnten. Die Antriebselektronik versucht mehrmals, einen fehlerhaften Sektor zu lesen, bevor sie für beschädigt erklärt wird.

Was den Lesefehler verursacht - Ich bin hier kein Experte (Armwinken folgt), aber die Alterung des Laufwerks kann dazu führen, dass Fertigungstoleranzen relevant werden. Magnetische Domänen können geschwächt werden. Kosmische Strahlung kann Schäden usw. verursachen. Im Wesentlichen handelt es sich um einen zufälligen Fehler.

Wie wirkt sich das auf RAID 5 aus?

A RAID 5 besteht aus Strip-Level-Striping mit verteilter Parität. Die Paritätsblöcke werden berechnet, indem die Bits aus den Datenblöcken zusammen XOR-verknüpft werden. Die Funktion XOR sagt im Grunde, wenn alle Bits gleich sind, ist das Ergebnis 0, andernfalls ist es 1. Bei der Berechnung der Parität nehmen Sie die ersten 2 Bits und XOR = sie dann XOR das Ergebnis mit dem nächsten Bit und so weiter zB.

1010   data      or    1010 data
1100   data            1100 data
0110   parity          0011 data
                       0101 parity

Die Funktion XOR) ist so beschaffen, dass die Daten, die sich auf der Festplatte befinden sollten, aus den verbleibenden Festplatten rekonstruiert werden können, wenn eine Festplatte stirbt und ersetzt wird.

1010  data       or    1010 data
      damaged               damaged
0101  parity           0011 data
                       0101 parity

Wie Sie sehen können, können die beschädigten Daten durch XOR-Verknüpfung der verbleibenden Daten und Parität rekonstruiert werden.

Wie wirkt sich ein URE darauf aus?

Ein URE ist nur während einer RAID 5-Neuerstellung von Bedeutung.

Wenn Sie ein RAID 5 rekonstruieren, muss viel gelesen werden. Jeder Datenblock muss gelesen werden, um die Daten auf der neuen Festplatte zu rekonstruieren. Wenn ein URE auftritt, können die Daten für den relevanten Block nicht wiederhergestellt werden, sodass Ihre Daten inkonsistent sind. Für ausreichend große Platten in einem ausreichend großen R5 überschreitet die Anzahl der gelesenen Bits, um die ersetzte Platte zu rekonstruieren, den URE-Wert von beispielsweise 1 Bit in 10 ^ 14 Lesevorgängen.

13
user9517

Was genau ist ein URE, meine ich konkret?

Festplatten speichern nicht einfach die Daten, nach denen Sie fragen. Aufgrund der immer kleiner werdenden magnetischen Domänengrößen und der Tatsache, dass Festplatten Daten eher analog als binär speichern (die Festplatten-Firmware erhält ein analoges Signal vom Plattenteller, das in ein binäres Signal übersetzt wird, und diese Übersetzung ist Teil der geheimen Soße des Herstellers), gibt es praktisch immer einen gewissen Fehler in einem Lesevorgang, der kompensiert werden muss.

Um sicherzustellen, dass Daten zurückgelesen werden können, speichert die Festplatte auch Vorwärtsfehlerkorrekturdaten zusammen mit den Daten, die Sie zum Speichern aufgefordert haben.

Unter normalen Betriebsbedingungen reichen die Daten FEC) aus, um die Fehler im Signal zu korrigieren, das vom Plattenteller zurückgelesen wird. Die Firmware kann dann die Originaldaten rekonstruieren, und alles ist in Ordnung behebbarer Lesefehler der in SMART als Lesefehlerrate Attribut (SMART-Attribut 0x01) und/oder = angezeigt wird Hardware ECC wiederhergestellt (SMART-Attribut 0xc3).

Wenn sich das Signal aus irgendeinem Grund unter einen bestimmten Punkt verschlechtert, reichen die FEC -Daten nicht mehr aus, um die Originaldaten zu rekonstruieren. An diesem Punkt, so die Theorie, kann die Firmware immer noch erkennen, dass die Daten nicht zuverlässig zurückgelesen werden konnten, aber nichts dagegen tun können. Wenn mehrere solcher Lesevorgänge fehlschlagen, muss die Festplatte den Rest des Computers irgendwie darüber informieren, dass der Lesevorgang nicht erfolgreich durchgeführt werden konnte. Dies geschieht durch Signalisieren eines nicht behebbaren Lesefehlers. Dies erhöht auch den Zähler Gemeldete nicht korrigierbare Fehler (SMART-Attribut 0xbb).

Ein nicht behebbarer Lesefehler oder URE ist einfach ein Bericht, dass aus irgendeinem Grund die Nutzdaten plus die FEC-Daten nicht ausreichten, um die ursprünglich gespeicherten Daten zu rekonstruieren .

Beachten Sie, dass die URE-Raten statistisch sind. Sie werden auf keine Festplatte stoßen, auf der Sie genau 10 ^ 14 (oder 10 ^ 15) - 1 Bit erfolgreich lesen können, und dann schlägt das nächste Bit fehl. Es ist vielmehr eine Aussage des Herstellers, dass im Durchschnitt Wenn Sie 10 ^ 14 Bits lesen (sagen wir), dann werden Sie irgendwann während dieses Prozesses auf einen unlesbaren Sektor stoßen.

Beachten Sie auch, dass die URE-Raten in Anlehnung an die letzten paar Wörter in Sektoren pro gelesenem Bit angegeben werden. Aufgrund der Art und Weise, wie Daten auf den Platten gespeichert werden, kann die Festplatte nicht erkennen, welcher Teil eines Sektors fehlerhaft ist. Wenn also ein Sektor die Prüfung FEC nicht besteht), wird der gesamte Sektor als fehlerhaft angesehen.

9
a CVn

der Sektor stirbt: ebenfalls völlig nicht wiederherstellbar, aber hier verstehe ich nicht, warum die 4-TB-Festplatte für das URE mit 10 ^ 14 und die 8-TB-Festplatte für das URE mit 10 ^ 14 bewertet wird, was bedeuten würde, dass die Sektoren auf dem 8 TB (höchstwahrscheinlich neuere Technologien) sind halb so zuverlässig wie die 4 TB, was keinen Sinn ergibt.

Die Spezifikation lautet normalerweise "durchschnittlich 1 Fehler wird beim Lesen von n Bits erkannt", daher spielt die Laufwerksgröße keine Rolle. Es ist wichtig, wenn Sie Ihr Risiko berechnen, dass ein Fehler auf Ihrem Laufwerk und Ihrer Workload auftritt. Der Hersteller gibt jedoch nur an, dass n Bits zum Lesen eines Fehlers erforderlich sind (im Durchschnitt nicht garantiert).

Beispiel: Wenn Sie ein 1-TB-Laufwerk kaufen, müssen Sie es ungefähr 12 Mal lesen, um einen Fehler zu finden, während es bei einem 8-TB-Laufwerk beim zweiten Lesen möglicherweise auftritt - aber die Anzahl der gelesenen Bits ist beide Male gleich, daher die Qualität der Magnetspindeln ist ungefähr gleich.

Was Sie für einen höheren Preis bezahlen, sind andere Faktoren, die Fähigkeit, 8 TB in den physischen Raum von 1 TB zu stopfen, der stark reduzierte Energieverbrauch, weniger Kopfstürze beim Bewegen des Laufwerks usw.

3
user121391

Ich denke, @Michael Kjörling hat klar geantwortet.

Wenn die Platte liest, erkennt der Kopf die Richtung der magnetischen Domäne und sendet dann ein elektronisches Signal aus, das analog ist. Wir gehen davon aus, dass die Firmware eine 1 geben sollte, wenn sie eine Spannung von mehr als 0,5 V empfängt, das Magnetfeld jedoch zu schwach ist, sodass der Kopf nur ein Signal mit 0,499 V sendet, wobei ein Fehler auftritt. Wir benötigen das FEC, um diesen Fehler zu korrigieren.

Hier ein Beispiel: Sektordaten sollten 0x0F23 sein, wir codieren sie mit 0 * 1 + F * 2 + 2 * 3 + 3 * 4 = 0x30. Jetzt bekommen wir die FEC und schreiben sie nach dem Sektor. Wenn wir lesen, lesen wir 0x0E23 und FEC 0x30, es stimmt nicht überein. Nach einigen Berechnungen haben wir festgestellt, dass es 0x0F23 sein sollte. Aber wenn wir 0x0E13 und 0x30 haben, OR wir haben 0x0E23 und 0x32, wir können nicht die richtige berechnen.

Diese Bewertung ist so niedrig, dass die EBD-Daten, wenn die Festplatten-Manufaktur keine PBs liest, möglicherweise einen stabilen Wert erhalten. Sie geben also den Wahrscheinlichkeitswert aus: Wenn Sie 10 ^ 14-Bit-Daten lesen, können Sie einmal angetroffen werden. Da es sich um einen Wahrscheinlichkeitswert handelt, sind Sie möglicherweise darauf gestoßen, nachdem Sie nur 1 Sektordaten gelesen haben, und sind möglicherweise darauf gestoßen, bis Sie 50 TB Daten gelesen haben. Und dieser Wert hatte nichts mit der Festplattenkapazität zu tun, sondern nur mit der von Ihnen gelesenen Datengröße. Wenn Sie eine 4-TB-Festplatte 6 Mal mit Daten lesen, entspricht diese Chance dem 4-maligen Lesen einer 6-TB-Festplatte oder dem 3-maligen Lesen einer 8-TB-Festplatte.

0
Harley