GNU/Linux >> LINUX-Kenntnisse >  >> Linux

So interpretieren Sie diese smartctl (smartmon)-Daten

Lösung 1:

Für Festplatten von Seagate (und möglicherweise auch einige alte von WD) sind Seek_Error_Rate und Raw_Read_Error_Rate 48-Bit-Zahlen, wobei die signifikantesten 16 Bits eine Fehleranzahl und die niedrigen 32 Bits eine Anzahl von Operationen sind.

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

Ihre Festplatte hat also 2440858991 Suchvorgänge ausgeführt, von denen 46 fehlgeschlagen sind. Meine Erfahrung mit Festplatten von Seagate ist, dass sie dazu neigen, auszufallen, wenn die Anzahl der Fehler 1000 überschreitet. YMMV.

Lösung 2:

Die „Suchfehlerrate“ und „Raw-Read-Fehlerrate“ RAW_VALUES sind für niemanden außer dem Support von Seagate praktisch bedeutungslos. Wie andere angemerkt haben, weisen Rohwerte von Parametern wie „Anzahl neu zugeordneter Sektoren“ oder Einträge im Fehlerprotokoll des Laufwerks eher auf eine höhere Ausfallwahrscheinlichkeit hin.

Aber Sie können sich die interpretierten Daten in den Spalten VALUE, WORST und THRESH ansehen, die als Messgeräte gelesen werden sollen:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

Das bedeutet, dass Ihre Suchfehlerrate derzeit als „77 % gut“ gilt und von SMART als Problem gemeldet wird, wenn sie „30 % gut“ erreicht. Es war einmal so niedrig wie "60% gut", hat sich aber seitdem auf magische Weise erholt. Beachten Sie, dass die interpretierten Werte intern von der SMART-Logik des Laufwerks berechnet werden und die genaue Berechnung vom Hersteller veröffentlicht werden kann oder nicht und normalerweise nicht vom Benutzer angepasst werden kann.

Ich persönlich betrachte ein Laufwerk mit Fehlerprotokolleinträgen als „fehlerhaft“ und fordere einen Ersatz, sobald sie auftreten. Aber alles in allem haben sich SMART-Daten als eher schwacher Indikator für die Fehlervorhersage herausgestellt, wie ein von Google veröffentlichtes Forschungspapier aufgedeckt hat.

Lösung 3:

Meiner Erfahrung nach hat Seagates seltsame Zahlen für diese beiden SMART-Attribute. Bei der Diagnose einer Seagate neige ich dazu, diese zu ignorieren und mir andere Felder wie „Relocated Sector Count“ genauer anzusehen. Natürlich sollten Sie im Zweifelsfall die Festplatte ersetzen, aber selbst brandneue Seagates weisen für diese Attribute hohe Zahlen auf.

Lösung 4:

Mir ist aufgefallen, dass diese Diskussion etwas alt ist, aber ich möchte meine 2 Cent hinzufügen. Ich habe festgestellt, dass die intelligenten Informationen ein ziemlich guter Indikator für einen vorzeitigen Ausfall sind. Wenn ein intelligenter Schwellenwert ausgelöst wird, ersetzen Sie das Laufwerk. Dafür sind diese Schwellenwerte da.

In den allermeisten Fällen werden Sie beginnen, fehlerhafte Sektoren zu sehen. Das ist ein sicheres Zeichen dafür, dass das Laufwerk ausfällt. SMART hat mich viele Male gerettet. Ich verwende Software-RAID 1 und es ist sehr hilfreich, da Sie einfach das fehlerhafte Laufwerk ersetzen und das Array neu erstellen.

Ich führe auch wöchentlich kurze und lange Selbsttests durch.

smartctl -t short /dev/sda
smartctl -t long /dev/sda 

Oder fügen Sie es /etc/smartd.conf hinzu und erhalten Sie eine E-Mail, wenn es Fehler gibt

/dev/sda -s L/../../3/22 -I 194 -m [email protected]
/dev/sdb -s L/../../7/22 -I 194 -m [email protected]

Stellen Sie sicher, dass Sie logwatch installieren und root auf eine E-Mail-Adresse umleiten und die täglichen E-Mails von logwatch überprüfen. SMARTD-Trigger-Flags werden dort angezeigt, aber es hilft nichts, wenn das niemand regelmäßig überwacht.

Lösung 5:

Tut mir leid, Nekromantie in diesem Beitrag zu begehen, aber meiner Erfahrung nach gehen die Felder „Raw Read Error Rate“ und „Hardware ECC Recovered“ für eine Seagate-Festplatte buchstäblich überall durch und inkrementieren Sie ständig in den Billionenbereich, an welchem ​​​​Punkt sie auf Null zurückgehen, um den Prozess erneut fortzusetzen. Ich habe eine Seagate ST9750420AS, die dieses Problem seit dem ersten Tag hatte und auch nach einigen Jahren und über 3500 Betriebsstunden immer noch hervorragend funktioniert.

Ich denke, diese Felder können ignoriert werden, wenn Sie in Ihrem Fall eines ausführen. Stellen Sie einfach sicher, dass die beiden Felder die gleiche Zahl melden und ständig synchron sind. Wenn sie es nicht sind ... na ja ... Das könnte tatsächlich ein Problem bedeuten.


Linux
  1. Warum Daten wichtig sind und wie man sie schützt

  2. Wie behebt man den Ruby-Installationsfehler:EC_GROUP_new_curve_GF2m nicht deklariert (erste Verwendung in dieser Funktion)?

  3. So funktioniert ein Linux-Server

  4. Wie kann ich dieses Sed-Skript schneller machen?

  5. Wie wird select() darauf aufmerksam gemacht, dass ein fd bereit wird?

Fehlerbehebung bei ERR_TOO_MANY_REDIRECTS

So installieren Sie OpenSC auf der IPFire-Firewall

So beheben Sie Konvertierungsfehler mit Calibre

So führen Sie Daten unter Linux zusammen

Wie lösche ich dieses unauslöschliche Verzeichnis?

So fügen Sie eine Datenquelle zu Redash hinzu