GNU/Linux >> LINUX-Kenntnisse > >> Ubuntu

So installieren und konfigurieren Sie Apache Spark unter Ubuntu 20.04

Apache Spark ist ein Open-Source-Berechnungsframework für umfangreiche Analysedaten und maschinelle Lernverarbeitung. Es unterstützt verschiedene bevorzugte Sprachen wie Scala, R, Python und Java. Es bietet High-Level-Tools für Spark-Streaming, GraphX für die Graphverarbeitung, SQL, MLLib.

In diesem Artikel erfahren Sie, wie Sie Apache Spark auf Ubuntu installieren und konfigurieren. Um den Ablauf in diesem Artikel zu demonstrieren, habe ich das Ubuntu 20.04 LTS-Versionssystem verwendet. Vor der Installation von Apache Spark müssen Sie Scala sowie Scala auf Ihrem System installieren.

Scala installieren

Wenn Sie Java und Scala nicht installiert haben, können Sie den folgenden Prozess befolgen, um es zu installieren.

Für Java installieren wir Open JDK 8 oder Sie können Ihre bevorzugte Version installieren.

$ sudo apt update

$ sudo apt install openjdk-8-jdk

Wenn Sie die Java-Installation überprüfen müssen, können Sie den folgenden Befehl ausführen.

$ java -version

Was Scala betrifft, so ist Scala eine objektorientierte und funktionale Programmiersprache, die sie zu einer einzigen prägnanten kombiniert. Scala ist sowohl mit der Javascript-Laufzeit als auch mit JVM kompatibel und gewährt Ihnen einfachen Zugriff auf das große Bibliotheken-Ökosystem, das beim Aufbau eines Hochleistungssystems hilft. Führen Sie den folgenden apt-Befehl aus, um Scala zu installieren.

$ sudo apt update

$ sudo apt install scala

Überprüfen Sie nun die Version, um die Installation zu überprüfen.

$ scala -version

Installieren von Apache Spark

Es gibt kein offizielles apt-Repository, um Apache-Spark zu installieren, aber Sie können die Binärdatei von der offiziellen Website vorkompilieren. Verwenden Sie den folgenden wget-Befehl und Link, um die Binärdatei herunterzuladen.

$ wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

Extrahieren Sie nun die heruntergeladene Binärdatei mit dem folgenden tar-Befehl.

$ tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz

Verschieben Sie zuletzt die extrahierten Spark-Dateien in das Verzeichnis /opt.

$ sudo mv spark-3.1.2-bin-hadoop3.2 /opt/spark

Umgebungsvariablen einrichten

Ihre Pfadvariable für Spark in Ihrer .profile in der Datei, die eingerichtet werden muss, damit der Befehl ohne vollständigen Pfad funktioniert, können Sie entweder mit dem echo-Befehl oder manuell mit einem bevorzugten Texteditor tun. Führen Sie für einen einfacheren Weg den folgenden Echo-Befehl aus.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile

$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile

$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Wie Sie sehen können, wird die Pfadvariable am Ende der .profile-Datei mithilfe von echo with>> operation.

angehängt

Führen Sie nun den folgenden Befehl aus, um die neuen Änderungen der Umgebungsvariablen anzuwenden.

$ source ~/.profile

Bereitstellen von Apache Spark

Jetzt haben wir alles eingerichtet, was wir können, um sowohl den Master-Dienst als auch den Worker-Dienst mit dem folgenden Befehl auszuführen.

$ start-master.sh

Wie Sie sehen können, läuft unser Spark-Master-Dienst auf Port 8080. Wenn Sie den localhost auf Port 8080 durchsuchen, ist dies der Standardport von spark. Beim Durchsuchen der URL können Sie auf die folgende Art von Benutzeroberfläche stoßen. Möglicherweise finden Sie keinen laufenden Worker-Prozessor, wenn Sie nur den Master-Dienst starten. Wenn Sie den Worker-Dienst starten, werden Sie genau wie im folgenden Beispiel einen neuen Knoten aufgelistet finden.

Wenn Sie die Masterseite im Browser öffnen, können Sie die Spark-Master-URL spark://HOST:PORT sehen, die verwendet wird, um die Worker-Dienste über diesen Host zu verbinden. Für meinen aktuellen Host lautet meine Spark-Master-URL spark://Linuxways.localdomain:7077, daher müssen Sie den Befehl folgendermaßen ausführen, um den Arbeitsprozess zu starten.

$ start-workers.sh <spark-master-url>

So führen Sie den folgenden Befehl aus, um die Worker-Dienste auszuführen.

$ start-workers.sh spark://Linuxways.localdomain:7077

Außerdem können Sie Spark-Shell verwenden, indem Sie den folgenden Befehl ausführen.

$ spark-shell

Schlussfolgerung

Ich hoffe, dass Sie aus diesem Artikel erfahren, wie Sie Apache Spark unter Ubuntu installieren und konfigurieren. In diesem Artikel habe ich versucht, den Prozess so verständlich wie möglich zu machen.

So verwalten Sie Startprogramme unter Ubuntu 20.04

So installieren Sie GNS3 unter Ubuntu 20.04

Ubuntu

So installieren Sie Apache Spark unter Ubuntu 20.04

So installieren und konfigurieren Sie Cacti unter Ubuntu 20.04

So installieren und konfigurieren Sie Apache Kafka unter Ubuntu 20.04

So installieren und konfigurieren Sie den Apache-Webserver unter Ubuntu

So installieren und konfigurieren Sie Apache Spark unter Ubuntu 21.04

So installieren und konfigurieren Sie Apache Spark unter Ubuntu/Debian