In diesem Artikel haben wir die notwendigen Schritte zur Installation und Konfiguration von Hadoop auf Ubuntu 18.04 LTS erklärt. Bevor Sie mit diesem Tutorial fortfahren, vergewissern Sie sich, dass Sie als Benutzer mit sudo-Berechtigungen angemeldet sind. Alle Befehle in diesem Tutorial sollten als Nicht-Root-Benutzer ausgeführt werden.
Die Apache Hadoop-Softwarebibliothek ist ein Framework, das die verteilte Verarbeitung großer Datenmengen über Computer-Cluster mithilfe einfacher Programmiermodelle ermöglicht. Es ist so konzipiert, dass es von einzelnen Servern auf Tausende von Maschinen skaliert werden kann, von denen jede lokale Berechnung und Speicherung bietet. Anstatt sich auf Hardware zu verlassen, um Hochverfügbarkeit bereitzustellen, ist die Bibliothek selbst darauf ausgelegt, Fehler auf der Anwendungsebene zu erkennen und zu handhaben und so einen hochverfügbaren Dienst auf einem Cluster von Computern bereitzustellen, von denen jeder für Fehler anfällig sein kann.
Installieren Sie Hadoop auf Ubuntu
Schritt 1. Bevor Sie mit der Installation eines Pakets auf Ihrem Ubuntu-Server beginnen, empfehlen wir immer, sicherzustellen, dass alle Systempakete aktualisiert sind.
sudo apt update sudo apt upgrade
Schritt 2. Installieren Sie Java.
Wir müssen Java auf dem Computer installieren, da Java die Hauptvoraussetzung für die Ausführung von Hadoop ist. Java 6 und höhere Versionen werden für Hadoop unterstützt. Lassen Sie uns für diese Lektion Java 8 installieren:
sudo apt install openjdk-8-jdk-headless
Stellen Sie sicher, dass Java korrekt installiert ist:
java -version
Schritt 3. Installieren von Hadoop auf Ubuntu 18.04.
Lassen Sie uns Hadoop-Installationsdateien herunterladen, damit wir auch an der Konfiguration arbeiten können:
mkdir jd-hadoop && cd jd-hadoop wget http://mirror.cc.columbia.edu/pub/software/apache/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz
Sobald die Datei heruntergeladen ist, führen Sie den folgenden Befehl aus, um die Datei zu entpacken:
tar xvzf hadoop-3.2.0.tar.gz
Schritt 4. Hadoop-Benutzerkonto hinzufügen.
Wir werden einen separaten Hadoop-Benutzer auf unserem Computer erstellen, um HDFS von unserem ursprünglichen Dateisystem getrennt zu halten. Wir können zuerst eine Benutzergruppe auf unserem Rechner erstellen:
addgroup hadoop
Jetzt können wir dieser Gruppe einen neuen Benutzer hinzufügen:
useradd -G hadoop hadoopuser
Schließlich stellen wir dem Benutzer jdhadoopuser Root-Zugriff bereit. Öffnen Sie dazu die Datei /etc/sudoers mit diesem Befehl:
sudo visudo
Geben Sie nun dies als letzte Zeile in die Datei ein:
hadoopuser ALL=(ALL) ALL
Schritt 5. Einrichtung eines Hadoop-Einzelknotens.
Hadoop auf einem einzelnen Knoten bedeutet, dass Hadoop als ein einzelner Java-Prozess ausgeführt wird. Benennen Sie nun das Hadoop-Archiv, wie es derzeit vorhanden ist, in nur Hadoop um:
mv /root/jd-hadoop/hadoop-3.2.0 /root/jd-hadoop/hadoop chown -R hadoopuser:hadoop /root/jd-hadoop/hadoop
Ein besserer Ort für Hadoop ist das Verzeichnis /usr/local/, also verschieben wir es dorthin:
mv hadoop /usr/local/ cd /usr/local/
Bearbeiten Sie nun die .bashrc-Datei, um Hadoop und Java mit diesem Befehl zum Pfad hinzuzufügen:
nano ~/.bashrc
# Configure Hadoop and Java Home export HADOOP_HOME=/usr/local/hadoop export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export PATH=$PATH:$HADOOP_HOME/bin
Jetzt ist es an der Zeit, Hadoop auch mitzuteilen, wo Java vorhanden ist. Wir können dies tun, indem wir diesen Pfad in der Datei hadoop-env.sh angeben:
find hadoop/ -name hadoop-env.sh
Bearbeiten Sie nun die Datei:
# nano hadoop-env.sh export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
Schritt 6. Testen der Hadoop-Installation.
Wir können die Hadoop-Installation testen, indem wir jetzt eine Beispielanwendung ausführen, die mit Hadoop vorgefertigt ist, ein Wortzähler-Beispiel-JAR:
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /usr/local/hadoop/README.txt /root/jd-hadoop/Output
Wenn Sie möchten, können Sie den Inhalt dieser Datei mit folgendem Befehl anzeigen:
cat part-r-00000
Das ist alles, was Sie tun müssen, um Apache Hadoop auf Ubuntu 18.04 zu installieren. Ich hoffe, Sie finden diesen schnellen Tipp hilfreich. Wenn Sie Fragen oder Anregungen haben, können Sie unten einen Kommentar hinterlassen.