Lösung 1:
Die standardmäßige fsck-Zeit von 180 Tagen ist eine Problemumgehung für den Designfehler, dass ext3 keine Online-Konsistenzprüfung unterstützt. Die wirkliche Lösung besteht darin, ein Dateisystem zu finden, das dies unterstützt. Ich weiß nicht, ob ein ausgereiftes Dateisystem dies tut. Es ist eine echte Tragödie. Vielleicht wird uns btrfs eines Tages retten.
Ich habe auf das Problem der überraschenden mehrstündigen Ausfallzeit von fsck reagiert, indem ich geplante Neustarts mit einem vollständigen fsck als Teil der Standardwartung durchgeführt habe. Das ist besser, als während der Produktionszeit auf eine geringfügige Beschädigung zu stoßen und daraus einen echten Ausfall zu machen.
Ein großer Teil des Problems besteht darin, dass ext3 einen unangemessen langsamen fsck hat. Obwohl xfs ein viel schnelleres fsck hat, verwendet es zu viel Speicher für Distributionen, um xfs standardmäßig auf großen Dateisystemen zu fördern. Auf den meisten Systemen ist dies jedoch kein Problem. Der Wechsel zu xfs würde zumindest ein einigermaßen schnelles fsck ermöglichen. Dies kann die Ausführung von fsck als Teil der normalen Wartung einfacher planen.
Wenn Sie RedHat verwenden und erwägen, xfs zu verwenden, müssen Sie sich darüber im Klaren sein, wie stark von der Verwendung von xfs abgeraten wird und dass es wahrscheinlich nur wenige Leute gibt, die xfs auf dem von Ihnen ausgeführten Kernel verwenden.
Soweit ich weiß, hat das ext4-Projekt das Ziel, die Leistung von fsck zumindest etwas zu verbessern.
Lösung 2:
Ich würde sagen, dass dies nur ein weiterer Grund ist, warum Produktionsserver nicht alleine laufen und immer entweder ein Hot/Cold-Backup haben oder Teil eines Zwei-Knoten-Clusters sein sollten. In diesen Tagen der Virtualisierung können Sie problemlos einen physischen Hauptserver und einen virtuellen Server haben, der nur eine Kopie des physischen Servers ist, der alle X Tage ausgeführt wird, und bereit ist, ihn zu übernehmen.
Abgesehen von dieser nicht so hilfreichen Antwort würde ich sagen, dass Sie die Wichtigkeit Ihrer Daten ausgleichen sollten ... Wenn dies nur ein Cluster-Knoten ist, überspringen Sie ihn. Wenn dies der nicht gesicherte Webserver eines Kunden ist, sollten Sie das nächste Mal vielleicht vorausplanen :-)
Lösung 3:
Hängt davon ab. Zum Beispiel fiel ein Server wegen routinemäßiger Wartung aus, auf dem ein QMail-Stack ausgeführt wurde. QMail erstellt und löscht im Laufe der Zeit viele Dateien, und es war ein sehr ausgelasteter Mailserver. Der fsck dauerte etwa 36 Stunden. Es ist nicht so, dass wir durch den Deal verdammt viel Leistung gespart hätten, aber ich nehme an, Sie könnten letztendlich argumentieren, dass das Dateisystem gesünder war. War es das Chaos wirklich wert, das darauf folgte? Nicht. Bei. Alle.