GNU/Linux >> LINUX-Kenntnisse > >> Debian

So installieren Sie Apache Hadoop unter Debian 11

In diesem Tutorial zeigen wir Ihnen, wie Sie Apache Hadoop auf Debian 11 installieren. Für diejenigen unter Ihnen, die es nicht wussten, Apache Hadoop ist eine Java-basierte Open-Source-Softwareplattform das die Datenverarbeitung und -speicherung für Big-Data-Anwendungen verwaltet. Es wurde entwickelt, um von einzelnen Servern auf Tausende von Computern zu skalieren, die jeweils lokale Rechen- und Speicherfunktionen bieten.

Dieser Artikel geht davon aus, dass Sie zumindest über Grundkenntnisse in Linux verfügen, wissen, wie man die Shell verwendet, und vor allem, dass Sie Ihre Website auf Ihrem eigenen VPS hosten. Die Installation ist recht einfach und setzt Sie voraus im Root-Konto ausgeführt werden, wenn nicht, müssen Sie möglicherweise 'sudo hinzufügen ‘ zu den Befehlen, um Root-Rechte zu erhalten. Ich zeige Ihnen Schritt für Schritt die Installation des Apache Hadoop auf einem Debian 11 (Bullseye).

Voraussetzungen

Ein Server, auf dem eines der folgenden Betriebssysteme ausgeführt wird:Debian 11 (Bullseye).
Es wird empfohlen, dass Sie eine neue Betriebssysteminstallation verwenden, um potenziellen Problemen vorzubeugen.
SSH-Zugriff auf den Server (oder öffnen Sie einfach das Terminal, wenn Sie sich auf einem Desktop befinden).
Ein non-root sudo user oder Zugriff auf den root user . Wir empfehlen, als non-root sudo user zu agieren , da Sie Ihr System beschädigen können, wenn Sie als Root nicht aufpassen.

Installieren Sie Apache Hadoop auf Debian 11 Bullseye

Schritt 1. Bevor wir Software installieren, ist es wichtig sicherzustellen, dass Ihr System auf dem neuesten Stand ist, indem Sie das folgende apt ausführen Befehle im Terminal:

sudo apt-Updatesudo apt-Upgrade

Schritt 2. Java installieren.

Apache Hadoop ist eine Java-basierte Anwendung. Daher müssen Sie Java auf Ihrem System installieren:

sudo apt install default-jdk default-jre

Überprüfen Sie die Java-Installation:

Java-Version

Schritt 3. Hadoop-Benutzer erstellen.

Führen Sie den folgenden Befehl aus, um einen neuen Benutzer mit dem Namen Hadoop zu erstellen:

adduser hadoop

Wechseln Sie als Nächstes zum Hadoop-Benutzer, sobald der Benutzer erstellt wurde:

su - hadoop

Jetzt ist es an der Zeit, einen ssh-Schlüssel zu generieren, da Hadoop ssh-Zugriff benötigt, um seinen Knoten, Remote- oder lokalen Computer zu verwalten, also konfigurieren wir für unseren einzelnen Knoten des Setups von Hadoop es so, dass wir Zugriff auf den localhost haben:

ssh-keygen -t rsa

Geben Sie danach der Datei "authorized_keys" die Berechtigung:

cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keyschmod 0600 ~/.ssh/authorized_keys

Überprüfen Sie dann die passwortlose SSH-Verbindung mit dem folgenden Befehl:

ssh Ihre Server-IP-Adresse

Schritt 4. Installieren von Apache Hadoop auf Debian 11.

Wechseln Sie zuerst zum Hadoop-Benutzer und laden Sie die neueste Version von Hadoop von der offiziellen Seite mit dem folgenden wget herunter Befehl:

su - hadoopwget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.1/hadoop-3.3.1-src.tar.gz

Extrahieren Sie als Nächstes die heruntergeladene Datei mit dem folgenden Befehl:

tar -xvzf hadoop-3.3.1.tar.gz

Ändern Sie nach dem Entpacken das aktuelle Verzeichnis in den Hadoop-Ordner:

su rootcd /home/hadoopmv hadoop-3.3.1 /usr/local/hadoop

Erstellen Sie als Nächstes mit dem folgenden Befehl ein Verzeichnis zum Speichern von Protokollen:

mkdir /usr/local/hadoop/logs

Ändern Sie den Besitz des Hadoop-Verzeichnisses in Hadoop:

chown -R hadoop:hadoop /usr/local/hadoopsu hadoop

Danach konfigurieren wir die Hadoop-Umgebungsvariablen:

nano ~/.bashrc

Fügen Sie die folgende Konfiguration hinzu:

 export HADOOP_HOME =/ usr / local / hadoopexport HADOOP_INSTALL =$ HADOOP_HOMEexport HADOOP_MAPRED_HOME =$ HADOOP_HOMEexport HADOOP_COMMON_HOME =$ HADOOP_HOMEexport HADOOP_HDFS_HOME =$ HADOOP_HOMEexport YARN_HOME =$ HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR =$ HADOOP_HOME / lib / nativeexport PATH =$ PATH:$ HADOOP_HOME / sbin:$HADOOP_HOME/binexport HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Speichern und schließen Sie die Datei. Aktivieren Sie dann die Umgebungsvariablen:

source ~/.bashrc

Schritt 5. Konfigurieren Sie Apache Hadoop.

Java-Umgebungsvariablen konfigurieren:

sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Fügen Sie die folgende Konfiguration hinzu:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"

Als nächstes müssen wir die Javax-Aktivierungsdatei herunterladen:

cd /usr/local/hadoop/libsudo wget https://jcenter.bintray.com/javax/activation/javax.activation-api/1.2.0/javax.activation-api-1.2.0.jar

Überprüfen Sie die Apache Hadoop-Version:

Hadoop-Version

Ausgabe:

Hadoop 3.3.1

Konfigurieren Sie die Datei core-site.xml:

nano $HADOOP_HOME/etc/hadoop/core-site.xml

Fügen Sie die folgende Datei hinzu:

  fs.default.name hdfs://0.0.0.0:9000 Der Standard-Dateisystem-URI

Datei hdfs-site.xml konfigurieren:

Erstellen Sie vor der Konfiguration ein Verzeichnis zum Speichern von Knotenmetadaten:

mkdir -p /home/hadoop/hdfs/{namenode,datanode}chown -R hadoop:hadoop /home/hadoop/hdfs

Bearbeiten Sie als Nächstes die hdfs-site.xml Datei und definieren Sie den Speicherort des Verzeichnisses:

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Fügen Sie die folgende Zeile hinzu:

  dfs.replication 1   dfs.name.dir file :///home/hadoop/hdfs/namenode   dfs.data.dir file:///home/hadoop/hdfs/datanode

Datei mapred-site.xml konfigurieren:

Jetzt bearbeiten wir die mapred-site.xml Datei:

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Fügen Sie die folgende Konfiguration hinzu:

  mapreduce.framework.name yarn

Garn-Site.xml-Datei konfigurieren:

Sie müssten die yarn-site.xml bearbeiten Datei und definieren Sie YARN-bezogene Einstellungen:

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Fügen Sie die folgende Konfiguration hinzu:

  yarn.nodemanager.aux-services mapreduce_shuffle

HDFS-NameNode formatieren.

Führen Sie den folgenden Befehl aus, um den Hadoop-Namenode zu formatieren:

HDFS-Namenode-Format

Starten Sie den Hadoop-Cluster.

Jetzt starten wir NameNode und DataNode mit dem folgenden Befehl unten:

start-dfs.sh

Starten Sie als Nächstes die YARN-Ressourcen- und -Knotenmanager:

start-yarn.sh

Du kannst sie jetzt mit dem folgenden Befehl überprüfen:

jps

Ausgabe:

[email protected]:~$ jps58000 NameNode54697 DataNode55365 ResourceManager55083 SecondaryNameNode58556 Jps55365 NodeManager

Schritt 6. Zugriff auf die Hadoop-Webschnittstelle.

Öffnen Sie nach erfolgreicher Installation Ihren Webbrowser und greifen Sie über die URL http://your-server-ip-address:9870 auf Apache Hadoop zu . Sie werden zur Hadoop-Weboberfläche weitergeleitet:

Navigieren Sie zu Ihrer Localhost-URL oder IP, um auf einzelne DataNodes zuzugreifen:http://your-server-ip-address:9864

Um auf den YARN-Ressourcenmanager zuzugreifen, verwenden Sie die URL http://your-server-ip-adddress:8088 . Sie sollten den folgenden Bildschirm sehen:

Herzlichen Glückwunsch! Sie haben Hadoop erfolgreich installiert. Vielen Dank, dass Sie dieses Tutorial zur Installation der neuesten Version von Apache Hadoop auf Debian 11 Bullseye verwendet haben. Für zusätzliche Hilfe oder nützliche Informationen empfehlen wir Ihnen, die offizielle Apache Webseite.

So installieren Sie Terraform unter Debian 11

So installieren Sie Grafana unter Debian 11

Debian

So installieren Sie Apache Tomcat unter Debian 11

So installieren Sie Apache NetBeans unter Debian 11 / Debian 10

So installieren Sie Apache Subversion unter Debian 9

So installieren Sie Apache Kafka unter Debian 9

So installieren Sie Apache Cassandra unter Debian 10

So installieren Sie Apache Groovy unter Debian 10