GNU/Linux >> LINUX-Kenntnisse >  >> Ubuntu

So installieren Sie Apache Hadoop unter Ubuntu 14.04

In diesem Tutorial zeigen wir Ihnen, wie Sie Apache Hadoop auf Ubuntu 14.04 installieren. Für diejenigen unter Ihnen, die es nicht wussten, Apache Hadoop ist ein in Java geschriebenes Open-Source-Software-Framework verteilte Speicher- und Verteilungsprozesse verarbeitet sie eine sehr große Menge an Datensätzen, indem sie sie über Computercluster verteilt.Anstatt sich auf Hardware zu verlassen, um eine hohe Verfügbarkeit bereitzustellen, ist die Bibliothek selbst darauf ausgelegt, Fehler auf der Anwendungsebene zu erkennen und zu handhaben und so eine bereitzustellen Hochverfügbarer Dienst auf einem Cluster von Computern, von denen jeder fehleranfällig sein kann.

Dieser Artikel geht davon aus, dass Sie zumindest über Grundkenntnisse in Linux verfügen, wissen, wie man die Shell verwendet, und vor allem, dass Sie Ihre Website auf Ihrem eigenen VPS hosten. Die Installation ist recht einfach und setzt Sie voraus im Root-Konto ausgeführt werden, wenn nicht, müssen Sie möglicherweise 'sudo hinzufügen ‘ zu den Befehlen, um Root-Rechte zu erhalten. Ich zeige Ihnen die Schritt-für-Schritt-Installation von Apache Hadoop auf Ubuntu 14.04. Sie können die gleichen Anweisungen für jede andere Debian-basierte Distribution wie Linux Mint befolgen.

Voraussetzungen

  • Ein Server, auf dem eines der folgenden Betriebssysteme ausgeführt wird:Ubuntu 14.04.
  • Es wird empfohlen, dass Sie eine neue Betriebssysteminstallation verwenden, um potenziellen Problemen vorzubeugen.
  • SSH-Zugriff auf den Server (oder öffnen Sie einfach das Terminal, wenn Sie sich auf einem Desktop befinden).
  • Ein non-root sudo user oder Zugriff auf den root user . Wir empfehlen, als non-root sudo user zu agieren , da Sie Ihr System beschädigen können, wenn Sie als Root nicht aufpassen.

Installieren Sie Apache Hadoop auf Ubuntu 14.04

Schritt 1. Installieren Sie Java (OpenJDK).

Da Hadoop auf Java basiert, stellen Sie sicher, dass Sie Java JDK auf dem System installiert haben. Wenn Sie Java nicht auf Ihrem System installiert haben, verwenden Sie den folgenden Link um es zuerst zu installieren.

  • Installieren Sie Java JDK 8 auf Ubuntu 14.04
[email protected] ~# java -version
java version "1.8.0_45"
Java(TM) SE Runtime Environment (build 1.8.0_45-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.45-b02, mixed mode)

Schritt 2. IPv6 deaktivieren.

Bis jetzt unterstützt Hadoop kein IPv6 und wurde getestet, um nur in IPv4-Netzwerken zu funktionieren. Wenn Sie IPv6 verwenden, müssen Sie Hadoop-Host-Rechner auf die Verwendung von IPv4 umstellen :

nano /etc/sysctl.conf

Fügen Sie diese 3 Zeilen am Ende der Datei hinzu:

#disable ipv6; 
net.ipv6.conf.all.disable_ipv6 = 1 
net.ipv6.conf.default.disable_ipv6 = 1 
net.ipv6.conf.lo.disable_ipv6 = 1

Schritt 3. Installieren Sie Apache Hadoop.

Um Sicherheitsprobleme zu vermeiden, empfehlen wir, eine neue Hadoop-Benutzergruppe und ein neues Benutzerkonto einzurichten, um sich mit allen Hadoop-bezogenen Aktivitäten zu befassen, folgen Sie dem Befehl:

sudo addgroup hadoopgroup
sudo adduser —ingroup hadoopgroup hadoopuser

Nachdem ein Benutzer erstellt wurde, musste auch schlüsselbasiertes ssh für sein eigenes Konto eingerichtet werden. Führen Sie dazu die folgenden Befehle aus:

su - hadoopuser
ssh-keygen -t rsa -P ""
cat /home/hadoopuser/.ssh/id_rsa.pub >> /home/hadoopuser/.ssh/authorized_keys
chmod 600 authorized_keys
ssh-copy-id -i ~/.ssh/id_rsa.pub slave-1
ssh slave-1

Laden Sie die neueste stabile Version von Apache Hadoop herunter. Zum Zeitpunkt der Erstellung dieses Artikels ist es Version 2.7.0:

wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.0/hadoop-2.7.0.tar.gz
tar xzf hadoop-2.7.0.tar.gz
mv hadoop-2.7.0 hadoop

Schritt 4. Konfigurieren Sie Apache Hadoop.

Hadoop-Umgebungsvariablen einrichten. ~/.bashrc bearbeiten Datei und hängen Sie die folgenden Werte am Ende der Datei an:

export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Umgebungsvariablen auf die aktuell laufende Sitzung anwenden:

source ~/.bashrc

Bearbeiten Sie nun $HADOOP_HOME/etc/hadoop/hadoop-env.sh Datei und legen Sie die Umgebungsvariable JAVA_HOME fest:

export JAVA_HOME=/usr/jdk1.8.0_45/

Hadoop verfügt über viele Konfigurationsdateien, die gemäß den Anforderungen Ihrer Hadoop-Infrastruktur konfiguriert werden müssen. Beginnen wir mit der Konfiguration mit der grundlegenden Einrichtung eines Hadoop-Clusters mit einem einzigen Knoten:

cd $HADOOP_HOME/etc/hadoop

Bearbeiten Sie core-site.xml :

<configuration>
<property>
  <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
</property>
</configuration>

Bearbeiten Sie hdfs-site.xml :

<configuration>
<property>
 <name>dfs.replication</name>
 <value>1</value>
</property>

<property>
  <name>dfs.name.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>

<property>
  <name>dfs.data.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
</configuration>

Bearbeiten Sie mapred-site.xml :

<configuration>
 <property>
  <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
</configuration>

Bearbeiten Sie yarn-site.xml :

<configuration>
 <property>
  <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
 </property>
</configuration>

Formatieren Sie nun namenode mit folgendem Befehl, vergessen Sie nicht, das Speicherverzeichnis zu überprüfen:

hdfs namenode -format

Starten Sie alle Hadoop-Dienste mit dem folgenden Befehl:

cd $HADOOP_HOME/sbin/
start-dfs.sh
start-yarn.sh

Sie sollten die Ausgabe beobachten, um sicherzustellen, dass versucht wird, den Datenknoten auf den Slave-Knoten einen nach dem anderen zu starten. Um zu überprüfen, ob alle Dienste ordnungsgemäß gestartet wurden, verwenden Sie 'jps ‘Befehl:

jps

Schritt 5. Zugriff auf Apache Hadoop.

Apache Hadoop ist standardmäßig auf HTTP-Port 8088 und Port 50070 verfügbar. Öffnen Sie Ihren bevorzugten Browser und navigieren Sie zu http://your-domain.com:50070 oder http://server-ip:50070 . Wenn Sie eine Firewall verwenden, öffnen Sie bitte die Ports 8088 und 50070, um den Zugriff auf das Control Panel zu ermöglichen.

Durchsuchen Sie die Weboberfläche nach dem ResourceManager, der standardmäßig unter http://your-domain.com:8088 verfügbar ist oder http://server-ip:8088 :

Herzlichen Glückwunsch! Sie haben Apache Hadoop erfolgreich installiert. Vielen Dank, dass Sie dieses Tutorial zur Installation von Apache Hadoop auf einem Ubuntu 14.04-System verwendet haben. Für zusätzliche Hilfe oder nützliche Informationen empfehlen wir Ihnen, die offizielle Apache Hadoop-Website zu besuchen.


Ubuntu
  1. So installieren Sie Apache Hadoop auf Ubuntu 16.04 LTS

  2. So installieren Sie Apache Hadoop auf Ubuntu 18.04 LTS

  3. So installieren Sie Apache Hadoop auf Ubuntu 20.04 LTS

  4. So installieren Sie Java unter Ubuntu 16.04

  5. So installieren Sie Java unter Ubuntu 20.04

So installieren Sie Apache Tomcat 8 unter Ubuntu 16.04

So installieren Sie Java unter Ubuntu 18.04

So installieren Sie Apache unter Ubuntu 20.04

Wie installiere ich Java unter Ubuntu 18.04?

So installieren Sie Hadoop auf Ubuntu 18.04 Bionic Beaver

So installieren Sie Java unter Ubuntu 22.04