GNU/Linux >> LINUX-Kenntnisse >  >> Ubuntu

So installieren Sie Hadoop auf Ubuntu 20.04

In diesem Artikel haben wir die notwendigen Schritte zur Installation und Konfiguration von Hadoop auf Ubuntu 20.04 LTS erklärt. Bevor Sie mit diesem Tutorial fortfahren, vergewissern Sie sich, dass Sie als Benutzer mit sudo angemeldet sind Privilegien. Alle Befehle in diesem Tutorial sollten als Nicht-Root-Benutzer ausgeführt werden.

Die Apache Hadoop-Softwarebibliothek ist das Framework, das die verteilte Verarbeitung großer Datensätze über Computer-Cluster mithilfe einfacher Entwicklungsmodelle ermöglicht. Es ist so konzipiert, dass es von einzelnen Servern zu Tausenden von Maschinen aufsteigen kann, von denen jede lokale Berechnung und Speicherung bietet. Anstatt sich auf Hardware zu verlassen, um Hochverfügbarkeit bereitzustellen, ist die Sammlung selbst darauf ausgelegt, Fehler an der Anwendungsbeschichtung zu erkennen und zu handhaben und so einen hochverfügbaren Dienst auf der Spitze eines Clusters von Computersystemen bereitzustellen, von denen jedes anfällig sein kann Fehler.

Installieren Sie Hadoop auf Ubuntu 20.04

Schritt 1. Bevor Sie mit der Installation eines Pakets auf Ihrem Ubuntu-Server beginnen, empfehlen wir immer, sicherzustellen, dass alle Systempakete aktualisiert sind.

sudo apt update
sudo apt upgrade

Schritt 2. Installieren Sie Java.

Sie können OpenJDK aus den standardmäßigen apt-Repositories installieren:

sudo apt install default-jdk default-jre

Nach erfolgreicher Installation von Java auf Ubuntu 20.04 bestätigen Sie die Version mit der Java-Befehlszeile:

java -version

Schritt 3. Erstellen Sie einen Hadoop-Benutzer.

Führen Sie den folgenden Befehl aus, um einen neuen Benutzer mit dem Namen Hadoop zu erstellen:

sudo adduser hadoop
sudo usermod -aG sudo hadoop
sudo usermod -aG sudo hadoop

Führen Sie als Nächstes den folgenden Befehl aus, um öffentliche und private Schlüsselpaare zu generieren:

ssh-keygen -t rsa

Hängen Sie dann die generierten öffentlichen Schlüssel von id_rsa.pub an bis authorized_keys und Berechtigung setzen:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 
chmod 640 ~/.ssh/authorized_keys

Vergewissern Sie sich, dass Sie mit dem hinzugefügten Schlüssel ssh können:

ssh localhost

Schritt 4. Installieren Sie Hadoop auf dem Ubuntu-System.

Gehen Sie zur offiziellen Seite des Apache Hadoop-Projekts und wählen Sie die Version von Hadoop aus, die Sie implementieren möchten:

su - hadoop 
wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz
tar -xvzf hadoop-3.3.2.tar.gz 
mv hadoop-3.3.2 hadoop

Als Nächstes müssen Sie Hadoop- und Java-Umgebungsvariablen auf dem Ubuntu-System konfigurieren:

nano ~/.bashrc

Fügen Sie die folgenden Zeilen hinzu:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Wenn Sie fertig sind, aktivieren Sie die Umgebungsvariablen:

source ~/.bashrc

Öffnen Sie als Nächstes die Hadoop-Umgebungsvariablendatei:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/

Schritt 5. Konfigurieren Sie Hadoop.

Erstellen Sie nun die namenode und datanode Verzeichnisse innerhalb des Hadoop-Home-Verzeichnisses:

mkdir -p ~/hadoopdata/hdfs/namenode 
mkdir -p ~/hadoopdata/hdfs/datanode

Bearbeiten Sie als Nächstes den core-site.xml Datei und aktualisieren Sie sie mit Ihrem System-Hostnamen:

nano $HADOOP_HOME/etc/hadoop/core-site.xml

Ändern Sie die folgende Zeile:

<configuration>        <property>                <name>fs.defaultFS</name>                <value>hdfs://hadoop.tecadmin.com:9000</value>        </property></configuration>

Bearbeiten Sie dann die hdfs-site.xml Datei:

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Ändern Sie die folgende Zeile:

<configuration>        <property>                <name>dfs.replication</name>                <value>1</value>        </property>        <property>                <name>dfs.name.dir</name>                <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>        </property>        <property>                <name>dfs.data.dir</name>                <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>        </property></configuration>

Bearbeiten Sie als Nächstes die mapred-site.xml Datei:

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Nehmen Sie die folgenden Änderungen vor:

<configuration>        <property>                <name>mapreduce.framework.name</name>                <value>yarn</value>        </property></configuration>

Bearbeiten Sie einmal den yarn-site.xml Datei:

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Nehmen Sie die folgenden Dateiänderungen vor:

<configuration>        <property>               <name>yarn.nodemanager.aux-services</name>                <value>mapreduce_shuffle</value>        </property></configuration>

Schritt 6. Hadoop-Cluster starten.

Führen Sie nun den folgenden Befehl aus, um den Hadoop-Namenode zu formatieren:

hdfs namenode -format 
start-dfs.sh

Starten Sie dann den YARN-Dienst mit den folgenden Befehlen:

start-yarn.sh

Geben Sie diesen einfachen Befehl ein, um zu prüfen, ob alle Daemons aktiv sind und als Java-Prozesse ausgeführt werden:

jps

Schritt 7. Firewall konfigurieren.

Führen Sie den folgenden Befehl aus, um Hadoop-Verbindungen durch die Firewall zuzulassen:

firewall-cmd --permanent --add-port=9870/tcp 
firewall-cmd --permanent --add-port=8088/tcp 
firewall-cmd --reload

Schritt 8. Zugriff auf Hadoop.

Verwenden Sie Ihren bevorzugten Browser und navigieren Sie zu Ihrer Localhost-URL oder -IP. Die Standard-Portnummer 9870 ermöglicht Ihnen den Zugriff auf die Benutzeroberfläche von Hadoop NameNode:

http://your-ip-address:9870

Das ist alles, was Sie tun müssen, um Hadoop auf Ubuntu 20.04 LTS Focal Fossa zu installieren. Ich hoffe, Sie finden diesen schnellen Tipp hilfreich. Weitere Informationen zu Apache Hadoop finden Sie in der offiziellen Wissensdatenbank. Wenn Sie Fragen oder Anregungen haben, können Sie unten einen Kommentar hinterlassen.


Ubuntu
  1. So installieren Sie Apache Hadoop unter Debian 11

  2. So installieren Sie Apache Hadoop auf CentOS 8

  3. So installieren Sie Apache Hadoop unter Ubuntu 14.04

  4. So installieren Sie Apache Hadoop auf Ubuntu 18.04 LTS

  5. So installieren Sie Go unter Ubuntu 18.04

So installieren Sie Go unter Ubuntu 18.04

So installieren Sie R unter Ubuntu 18.04

So installieren Sie qt unter Ubuntu 20.04

So installieren und konfigurieren Sie Hadoop unter Ubuntu 20.04

So installieren Sie Go in Ubuntu 20.04

So installieren Sie Go unter Ubuntu 22.04