GNU/Linux >> LINUX-Kenntnisse >  >> Linux

Süßes und Saures für Sysadmins und Ops

Buh! Endlich ist Halloween da. Hast du dein Lieblings-Halloween-Kostüm schon vorbereitet? Oder vielleicht bereiten sich Ihre Kinder auf Süßes oder Saures vor. Wir schreiben das Jahr 2020 und diese Coronavirus-Pandemie ist wahrscheinlich die gruseligste Sache – noch furchterregender als die Geister und Zombies, die an Ihre Tür klopfen.

Wenn Sie ein Systemadministrator sind, erleben Sie vielleicht einige wirklich beängstigende Momente, die Ihnen Gänsehaut und schlaflose Nächte bereiten, aber selbst der schrecklichste Geist, Zombie oder das schrecklichste Monster hat eine Nemesis, vor der Sie davonlaufen können, sei es ein koptisches Kreuz oder eine Knoblauchkette , ein Haufen Kryptonite oder ein erfahrener Systemadministrator. In diesem Artikel werde ich einige mögliche Gruselmomente für einen Systemadministrator wie Sie vorstellen. Ich sage dir auch, wie du damit umgehen kannst. Es ist schließlich Halloween, also betrachte diese Liste als mein Halloween-Leckerbissen für dich.

Ich habe diesen Blog auch auf YouTube bereitgestellt, Sie möchten ihn lieber ansehen, als mehr zu lesen.

Trick Nr. 1:Absturz des Cloud-Servers

Es ist 2 Uhr morgens und Ihr Smartphone beginnt zu summen. Halbwach nimmst du dein Handy und starrst auf den Bildschirm. Schießen. Ihre E-Mail erhält weiterhin automatisch generierte Benachrichtigungen vom Nachrichtensystem von Slack/Teams, dass Ihr Produktionsserver seit zwei bis drei Stunden ausgefallen ist. Das nächste, was Sie wissen, Ihr Chef möchte, dass Sie und der Rest des Betriebsteams so schnell wie möglich da sind. Dies ist definitiv eine Situation, in die Sie nicht geraten möchten. Wie können Sie also verhindern, dass dies geschieht?

[ Das könnte Ihnen auch gefallen: Bash-Bang-Befehle:Ein unverzichtbarer Trick für die Linux-Befehlszeile ]

Treat #1:Load Balancer und Replikation:Den Serverabsturz verhindern

Während es unmöglich ist, den Absturz laufender Server vollständig zu verhindern, ist es möglich, ein nahezu fehlertolerantes System zu erstellen, wenn Sie es richtig gestalten. Eine Lösung besteht darin, die Replikation über mehrere Umgebungen mit Multi-Clustern und Multi-Nodes einzurichten. Sie können einen Load Balancer hinzufügen, um sicherzustellen, dass andere Cluster weiter funktionieren, selbst wenn ein Cluster heruntergefahren wird. Wenn zu viel Datenverkehr oder andere Leistungsprobleme auftreten, können Sie die automatische Skalierungsfunktion so konfigurieren, dass sie hochskaliert oder übergreifend skaliert wird.

Trick Nr. 2:Datenbeschädigung oder -verlust

Ein neuer Praktikant namens Mike ist Ihrem Engineering-Team beigetreten. Aufgeregt, dass er die Tools hat, die er braucht, führt er eine SQL-Abfrage aus, ohne die Absicht, irgendetwas zu beschädigen. Aber oh-oh. Diese kleine Änderung führt dazu, dass Ihre Datenbanktabelle gelöscht wird und alle kritischen Kundendaten weg sind. Was können Sie tun, um ein solches Problem zu vermeiden?

Treat #2:Datensicherung und -wiederherstellung:Datenverlust und -beschädigung beheben

Datenverlust ist ein ernstes Problem für jeden Live-Dienst oder jede Live-Anwendung. Daher muss die Sicherungs- und Wiederherstellungsstrategie zumindest für die Produktionsumgebung immer verfügbar sein. Idealerweise sollte das Sicherungs- und Wiederherstellungsverfahren in allen Umgebungen verfügbar sein. Erstellen Sie außerdem einen Mechanismus, um diesen Prozess zu automatisieren. Am einfachsten können Sie beginnen, indem Sie einige Bash-Skripte erstellen, um eine Reihe von Sicherungs- und Wiederherstellungsbefehlen auszuführen.

Trick Nr. 3:Anwendungsabsturz

Hurra! Ihr Server und Ihre Datenbank sind jetzt fehlertolerant und felsenfest, aber eine Java-Anwendung, die wichtige geschäftliche Endpunkte offenlegt, explodiert plötzlich. Wenn ein Kunde die Website besucht, sieht er nur eine 404-Seite, die Ihr Unternehmen eine Million Dollar pro Minute kostet.

Treat #3:Beobachtbarkeit – Protokollierung und Überwachung:Fehler oder Bugs schnell identifizieren

Anwendungsfehler treten ständig auf, und es gibt viele Techniken und Programmierungsdesignmuster, wie das Circuit Breaker-Muster, um Probleme zu lösen. Jeder Fehler, der innerhalb der App läuft, muss jedoch schnell identifiziert werden, bevor er behoben werden kann. Daher sind Protokollierung und Überwachung für alle Anwendungen absolute Notwendigkeiten. Stellen Sie sicher, dass in Ihrer Anwendung in allen Codeblöcken und -zeilen Debugging-Punkte aktiviert sind. Diese Fehler oder Ausgaben sollten an die Überwachungs-Dashboards gesendet werden, damit Entwickler das Problem schnell lokalisieren können.

Trick Nr. 4:Eine langsame Anwendung

Sie haben Protokollierung und Überwachung für alle Anwendungen hinzugefügt. Du kannst endlich glücklich schlafen und davon träumen, den diesjährigen virtuellen Halloween-Kostümwettbewerb zu gewinnen. Einige Minuten später lesen Sie jedoch eine E-Mail von einem Kunden, in der es heißt, dass der Anwendungsdienst wirklich langsam ist.

Behandlung Nr. 4:Entwicklungstools zur Identifizierung von Engpässen:Finden Sie heraus, wo die Verlangsamung auftritt

So wie ein Entwickler den Engpass schnell lokalisieren kann, wenn Überwachung und Protokollierung in allen Anwendungen aktiviert sind, können Sie Entwicklertools wie traceroute verwenden /tracert , Chrome-Browser-Entwicklertools und Wireshark, um Fehler in Anwendungen zu beheben und leicht zu erkennen, wo Leistungsprobleme auftreten. Die Kenntnis von Tools wie diesem kann einem Entwickler helfen, die schwierigen Probleme zu bewältigen, die mit Cloud-basierten Anwendungen verbunden sind.

Trick Nr. 5:Langsame Latenz an nur einem Ort gemeldet

Da Sie ein Master-Systemadministrator sind, haben Sie endlich die Ursache für die allgemeine Verlangsamung der Anwendung gefunden. Sie haben das Problem behoben und der Kunde schickt Ihnen später ein Dankesschreiben, in dem er sagt, dass alles in Ordnung ist. Einen Tag später erhalten Sie jedoch eine E-Mail von einem anderen Kunden aus Sydney, Australien, der sich darüber beschwert, dass die Anwendung Ihres Unternehmens beim Besuch der Website langsam vorkommt. Was ist los?

Treat #5:Content Delivery Network (CDN) und Zugriff auf mehrere Regionen:Reduzieren Sie die Latenzzeit

Obwohl das Problem immer noch ein Latenzproblem aufgrund des Designs einer Anwendung sein kann, könnte das Problem an einer mangelnden Serververfügbarkeit für den Kunden in dieser Stadt oder Region liegen. Eine Möglichkeit, das Problem zu lösen, besteht darin, einen zusätzlichen Standort für Ihre laufenden Dienste hinzuzufügen, sodass der nächstgelegene Server automatisch ausgewählt werden kann, um die erforderlichen Inhalte an den Kunden zu liefern. Mit anderen Worten, ein multiregionaler Cluster und ein Content Delivery Network (CDN) können helfen, das Problem zu entschärfen.

[ Jetzt herunterladen:Eine Anleitung für Systemadministratoren zum Bash-Skripting. ] 

Abschluss

Das war's Leute! Sie haben gelernt, wie Sie die fünf häufigsten Probleme lösen, denen Sie als Systemadministrator begegnen können, wenn Sie Anwendungen auf einem Server oder in einer Cloudumgebung ausführen. Probleme wie diese treten ständig auf, aber es gibt Möglichkeiten, die Probleme mit der richtigen Architektur und einem guten Sysadmin-Ansatz angemessen zu verhindern oder zu mindern. Ich hoffe, dieser Artikel hat Ihnen geholfen, ein besserer Systemadministrator zu werden. Fröhliches Halloween!


Linux
  1. Tipps und Tricks zur Verwendung von CUPS zum Drucken unter Linux

  2. Tipps und Tricks für curl und wget

  3. Top einzeilige Linux-Befehle, Anpassen von VM-Images und weitere Tipps für Systemadministratoren

  4. Schreiben von Python-Anwendungen, Erstellen von Linux-Labs und weitere Tipps für Systemadministratoren

  5. Tricks und Tipps zum Auffinden von Informationen in Manpages?

16 Tipps und Tricks zu iptables für Systemadministratoren

Zeitmanagement:unverzichtbare Tools und Strategien für Systemadministratoren

So installieren und verwenden Sie Okteta für RAW-Datendateien unter Linux

Pay-per-Click-Textanzeigen für Anwälte und Rechtsanwälte

Was ist eine verteilte Datenbank und wozu dienen verteilte Datensysteme?

Die 15 besten ökonometrischen und statistischen Software für Linux-Systeme