GNU/Linux >> LINUX-Kenntnisse > >> Ubuntu

Installieren und konfigurieren Sie Apache Spark unter Ubuntu 20.04

Apache Spark ist ein Open-Source-Berechnungsframework für umfangreiche Analysedaten und maschinelle Lernverarbeitung. Es unterstützt verschiedene bevorzugte Sprachen wie Scala, R, Python und Java. Es bietet High-Level-Tools für Spark-Streaming, GraphX für die Graphverarbeitung, SQL, MLLib.

Hier bei LinuxAPT helfen wir unseren Kunden im Rahmen unserer Server Management Services regelmäßig bei der Durchführung verwandter Linux-Systemabfragen.

In diesem Zusammenhang werden wir untersuchen, wie Apache Spark auf dem System der Ubuntu 20.04 LTS-Version installiert und konfiguriert wird.

Vor der Installation von Apache Spark müssen Sie Scala auf Ihrem System installieren.

Wie installiere ich Scala auf Ubuntu?

Wenn Sie Java und Scala nicht installiert haben, können Sie den folgenden Prozess befolgen, um es zu installieren.

Für Java installieren wir Open JDK 8 oder Sie können Ihre bevorzugte Version installieren, indem Sie die folgenden Befehle ausführen:

$ sudo apt update
$ sudo apt install openjdk-8-jdk

Wenn Sie die Java-Installation überprüfen müssen, können Sie den folgenden Befehl ausführen:

$ java -version

Was Scala betrifft, so ist Scala eine objektorientierte und funktionale Programmiersprache, die sie zu einer einzigen prägnanten kombiniert. Scala ist sowohl mit der Javascript-Laufzeit als auch mit JVM kompatibel und gewährt Ihnen einfachen Zugriff auf das große Bibliotheken-Ökosystem, das beim Aufbau eines Hochleistungssystems hilft. Führen Sie den folgenden apt-Befehl aus, um Scala zu installieren:

$ sudo apt update
$ sudo apt install scala

Überprüfen Sie nun die Version, um die Installation zu überprüfen:

$ scala -version

Wie installiere ich Apache Spark auf Ubuntu?

Es gibt kein offizielles apt-Repository, um Apache-Spark zu installieren, aber Sie können die Binärdatei von der offiziellen Website vorkompilieren. Verwenden Sie den folgenden wget-Befehl und Link, um die Binärdatei herunterzuladen:

$ wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

Extrahieren Sie nun die heruntergeladene Binärdatei mit dem folgenden tar-Befehl:

$ tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz

Verschieben Sie zuletzt die extrahierten Spark-Dateien in das /opt-Verzeichnis:

$ sudo mv spark-3.1.2-bin-hadoop3.2 /opt/spark

Wie richte ich Apache Spark-Umgebungsvariablen ein?

Ihre Pfadvariable für Spark in Ihrer .profile in der Datei, die eingerichtet werden muss, damit der Befehl ohne vollständigen Pfad funktioniert, können Sie entweder mit dem echo-Befehl oder manuell mit einem bevorzugten Texteditor tun. Führen Sie für einen einfacheren Weg den folgenden Echo-Befehl aus:

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Sie werden feststellen, dass die Pfadvariable am Ende der .profile-Datei mithilfe von echo with>> operation.

angehängt wird

Führen Sie nun den folgenden Befehl aus, um die neuen Änderungen der Umgebungsvariablen anzuwenden:

$ source ~/.profile

Wie stellt man Apache Spark nach der Installation und Einrichtung bereit?

Jetzt haben wir alles eingerichtet, was wir können, um sowohl den Master-Dienst als auch den Worker-Dienst mit dem folgenden Befehl auszuführen:

$ start-master.sh

Sie werden sehen, dass der Spark-Master-Dienst auf Port 8080 ausgeführt wird. Wenn Sie den localhost auf Port 8080 durchsuchen, ist dies der Standardport von Spark. Beim Durchsuchen der URL können Sie auf die folgende Art von Benutzeroberfläche stoßen. Möglicherweise finden Sie keinen laufenden Worker-Prozessor, wenn Sie nur den Master-Dienst starten. Wenn Sie den Worker-Dienst starten, werden Sie einen neuen Knoten aufgelistet finden.

Wenn Sie die Masterseite im Browser öffnen, können Sie die Spark-Master-URL spark://HOST:PORT sehen, die verwendet wird, um die Worker-Dienste über diesen Host zu verbinden. Für meinen aktuellen Host lautet meine Spark-Master-URL spark://Linuxapt.localdomain:7077, sodass Sie den Befehl folgendermaßen ausführen müssen, um den Arbeitsprozess zu starten:

$ start-workers.sh <spark-master-url>

So führen Sie den folgenden Befehl aus, um die Worker-Dienste auszuführen:

$ start-workers.sh spark://Linuxapt.localdomain:7077

Außerdem können Sie Spark-Shell verwenden, indem Sie den folgenden Befehl ausführen:

$ spark-shell

Startprogramme auf Ubuntu 20.04 verwalten - Der richtige Weg?

Installieren Sie ROS Noetic auf Linux Mint 20 - Eine Schritt-für-Schritt-Anleitung?

Ubuntu

Installieren und konfigurieren Sie Fail2ban unter Ubuntu 20.04

So installieren und konfigurieren Sie Apache Kafka unter Ubuntu 20.04

So installieren und konfigurieren Sie Apache Spark unter Ubuntu 20.04

So installieren und konfigurieren Sie den Apache-Webserver unter Ubuntu

So installieren und konfigurieren Sie Apache Spark unter Ubuntu 21.04

So installieren und konfigurieren Sie Apache Spark unter Ubuntu/Debian