2008-09-17 13 views
2

Kürzlich habe ich einen Artikel mit dem Titel "SATA vs. SCSI reliability" gelesen. Es behandelt hauptsächlich das Bit-Flipping mit sehr hoher Rate in Consumer-SATA-Laufwerken und kommt zu dem Schluss "Eine 56% ige Chance, dass nicht alle Daten von einer bestimmten Festplatte jetzt gelesen werden können". Selbst Raid-5 kann uns nicht retten, da es ständig nach Problemen durchsucht werden muss und wenn eine Platte stirbt, ist es ziemlich sicher, dass sie einige umgedrehte Bits auf Ihrem neu erstellten Dateisystem haben.Wie schütze ich meine Dateidaten vor Beschädigung der Festplatte?

Überlegungen:

ich große Dinge über Suns ZFS mit Raid-Z aber die Linux und BSD-Implementierungen sind noch experimentell gehört haben. Ich bin mir nicht sicher, ob es für die Prime Time noch fertig ist.

Ich habe auch einiges über das Par2 Dateiformat gelesen. Es scheint, als würde das Speichern von zusätzlicher% Parität zusammen mit jeder Datei es Ihnen ermöglichen, die meisten Probleme zu beheben. Mir ist jedoch kein Dateisystem bekannt, das dies intern erledigt und es scheint, als könnte es schwierig sein, die einzelnen Dateien zu verwalten.

Backups (Edit):

Ich verstehe, dass Backups von größter Bedeutung sind. Ohne eine solche Überprüfung könnten Sie jedoch schlechte Daten einfach an Personen senden, ohne es zu wissen. Auch herauszufinden, welches Backup eine gute Kopie dieser Daten hat, könnte schwierig sein.

Zum Beispiel haben Sie ein Raid-5-Array für ein Jahr ausgeführt und Sie finden eine beschädigte Datei. Jetzt müssen Sie Ihre Backups überprüfen, bis Sie eine gute Kopie gefunden haben. Im Idealfall würden Sie zum ersten Backup gehen, das die Datei enthält, aber das kann schwierig sein, besonders wenn die Datei viele Male bearbeitet wurde. Schlimmer noch, überlegen Sie, ob diese Datei nach der Beschädigung angehängt oder bearbeitet wurde. Das allein ist Grund genug für Parität auf Blockebene wie Par2.

Antwort

0

ZFS ist ein Anfang.Viele Speicheranbieter bieten 520B-Laufwerke mit zusätzlichem Datenschutz an. Dies schützt Ihre Daten jedoch nur, sobald sie in die Speicherstruktur eintreten. Wenn es auf der Host-Ebene beschädigt wurde, dann wirst du sowieso abgespritzt.

Auf dem Horizont sind einige vielversprechende Standards-basierte Lösungen für dieses Problem. End-to-End-Datenschutz

Betrachten Sie T10 DIF (Data Integrity Field). Dies ist ein neuer Standard (er wurde vor 5 Jahren entworfen) und eine neue Technologie, aber er hat das erhabene Ziel, das Problem der Datenkorruption zu lösen.

0

56% Chance Ich kann etwas nicht lesen, ich bezweifle es. Ich habe eine Mischung aus RAID 5 und anderen Goodies und nur gute Backup-Praktiken, aber mit Raid 5 und einem Hotspare hatte ich noch nie einen Datenverlust, daher bin ich mir nicht sicher, worum es bei all dem Trubel geht. Wenn Sie Paritätsinformationen speichern ... Nun, Sie erstellen ein RAID-System mit Hilfe von Software, ein Festplattenfehler in R5 führt zu einer paritätsähnlichen Überprüfung, um die verlorenen Daten wiederzubekommen, also ... es ist bereits da.

Run Raid, ein Backup Ihrer Daten, wird gut :)

+0

Ich bin mir nicht so sicher. Wenn irgendwelche der "addierten" Bits umgedreht werden und Sie neu aufbauen, haben Sie den falschen Wert. –

+0

Die Bits werden nicht umgeblättert, wenn sie im Benutzerbereich ankommen. Der Festplattencontroller bemerkt eine fehlgeschlagene Prüfsumme und gibt im Fall von Software-RAID den Fehler "Lesen fehlgeschlagen" an den RAID-Controller oder das Betriebssystem zurück. Daher sind die Bits aus dem fraglichen Sektor nicht in der RAID 5-Berechnung enthalten. – tialaramex

+0

Sie missverstehen. Ich spreche von Festplattenrekonstruktion. –

2

Dieser Artikel deutlich das Problem übertreibt die Quelle von Missverständnissen. Es geht davon aus, dass Datenverlustereignisse unabhängig sind, dh dass, wenn ich tausend Festplatten nehme und fünfhundert Fehler erhalte, dies wahrscheinlich jeweils einer von fünfhundert der Festplatten ist. Aber tatsächlich, wie jeder, der Plattenprobleme hatte, weiß, ist es wahrscheinlich fünfhundert Fehler auf einer Festplatte (immer noch ein winziger Bruchteil der Gesamtkapazität der Festplatte), und die anderen neunhundertneunundneunzig waren in Ordnung. In der Praxis bedeutet das also nicht, dass es eine Chance von 56% gibt, dass Sie nicht alle Ihre Festplatte lesen können, sondern eher 1% oder weniger, aber die meisten Leute in dieser 1% werden feststellen, dass sie Dutzende verloren haben oder Hunderte von Sektoren, obwohl die Festplatte als Ganzes nicht ausgefallen ist.

Sicher genug, praktische Experimente reflektieren dieses Verständnis, nicht das in dem Artikel angebotene.

Im Grunde ist dies ein Beispiel für "Chinese Whispers". Der hier verlinkte Artikel verweist auf einen anderen Artikel, der wiederum indirekt auf ein veröffentlichtes Papier verweist. Das Papier sagt, dass natürlich diese Ereignisse sind nicht unabhängig aber diese wichtige Tatsache verschwindet auf dem Übergang zum leicht verdaulichen Blog-Format.

+0

Ich hatte persönlich Probleme mit unberührten Dateien, die auf dem 500-GB-HDD meines Desktops beschädigt wurden. Dies sind normalerweise Bilder, von denen ich mehrere hunderttausend zum Testen habe und manchmal meine Tests zum Scheitern verurteilt. Haben Sie Beispiele für praktische Experimente? –

+0

Sicher, wenn Sie diesen Artikel lesen, waren Sie aufgeregt, es verbindet einen anderen Artikel, lesen Sie diesen, es bietet keine richtigen Referenzen, aber schließlich nach Dadeln der Autor ein Papier in den Kommentaren. Dieses Papier zerstört dieses "56%" Ding vollständig und gibt ~ 1% als eine wahre Zahl. – tialaramex

+0

Was Ihre Dateien betrifft, überprüfen Sie die SMART-Diagnose für das Laufwerk, und überprüfen Sie Ihren RAM, Dateien müssen im RAM sein, bevor die CPU etwas mit ihnen tun kann, eine überraschende Anzahl von Menschen nicht dubiosen RAM als eine Quelle von Daten betrachten Korruption trotz Festplatten mit ECC, während die meisten DIMMs nicht. – tialaramex