Lösung 1:
Wahrscheinlich ist Ihre beste Wahl ein Hardwareproblem irgendwo zwischen Ihren Festplatten und bis einschließlich Ihres SAS-Raid-Controllers. Ich empfehle Folgendes:
- Führen Sie alle Diagnosetools des Anbieters/der Anbieter aus, sofern verfügbar
- Kabel prüfen/neu einsetzen/ersetzen
- Entfernen Sie Hardwarekomponenten und tauschen Sie Hardware in der Kette aus, die die Festplatten mit Ihrem RAID-Controller verbindet, einschließlich des Controllers selbst (d. h. versuchen Sie für Sie etwas anderes als das integrierte Raid des Motherboards).
Ich hatte einen von zwei identischen Dell PowerEdge R515, der sehr ähnliche Meldungen ausgab (Protokolle füllten sich regelmäßig mit mpt2sas0-Meldungen, obwohl ich nicht die genauen numerischen Codes habe). Die eigene bootfähige Diagnose von Dell hat diese als "Hardwarefehler" erkannt und das Ersetzen der RAID-SAS-Rückwandplatine löste das Problem.
Als ich nachforschte, konnte ich keine umfassende Ressource darüber finden, was verschiedene mpt2sas0-Fehlercodes bedeuten. Ich vermute, dass sie sogar hardwareherstellerspezifisch sind (jemand, der mehr über SAS weiß, muss dies bestätigen oder dementieren). Ihre Fehlercodes könnten also etwas völlig anderes bedeuten, aber wenn SMART sauber ist, ist es schwer, sich andere gute Gründe für mpt2sas0 vorzustellen, Fehlercodes zu melden.
Diese Fehler können sehr schwerwiegend sein. Mein R515 hat mit diesen Meldungen scheinbar eine Woche lang mit einem 12-Festplatten-Ubuntu-Linux-Software-Raid 6 funktioniert, aber dann wurden plötzlich alle 12 Festplatten als defekt (!) aus dem Array ausgeworfen
Auch in meinem Fall waren die SMART für alle Festplatten komplett sauber. Eine gute Überprüfung ist ein intelligenter Selbstdiagnosetest:smartctl -t long /dev/sdX
, und überprüfen Sie die Ergebnisse etwa einen Tag später mit smartctl -l selftest /dev/sdX
. Wenn alles in Ordnung ist, sollte der Test Completed
anzeigen und die LBA_first_err
Spalte sollte leer sein.
Lösung 2:
Wow, eine schwierige Frage.
Dies scheint darauf hinzudeuten, dass 0x31120303 ein Bus-Reset ist, da eines Ihrer Geräte stark ausgelastet ist. Es heißt auch, dass Sie sich keine Sorgen machen müssen. (Haha, ja, richtig.)
Dies weist darauf hin, dass diese Protokollmeldungen auftreten, weil eines Ihrer Geräte zu lange braucht, um auf Befehle zu reagieren. Dies sagt dasselbe aus und weist auch darauf hin, dass es unter hoher Last auftritt.
Obwohl dies keine vollständige Antwort ist, weist sie Sie hoffentlich in eine nützliche Richtung.