GNU/Linux >> LINUX-Kenntnisse > >> Ubuntu

So installieren und konfigurieren Sie Apache Spark unter Ubuntu 21.04

Einführung

Apache Spark ist ein verteiltes Open-Source-Berechnungsframework, das erstellt wurde, um schnellere Berechnungsergebnisse bereitzustellen.

Es ist eine In-Memory-Rechenmaschine, was bedeutet, dass die Daten im Speicher verarbeitet werden.

Funke unterstützt verschiedene APIs für Streaming, Graphverarbeitung, SQL, MLLib. Es unterstützt auch Java, Python, Scala und R als bevorzugte Sprachen. Spark wird hauptsächlich in Hadoop-Clustern installiert, aber Sie können Spark auch im Standalone-Modus installieren und konfigurieren.

In diesem Artikel erfahren Sie, wie Sie Apache Spark installieren in Debian und Ubuntu -basierte Distributionen.

Installieren Sie Java unter Ubuntu

So installieren Sie Apache Spark in Ubuntu benötigen Sie Java auf Ihrem Rechner installiert. Bei den meisten modernen Distributionen ist Java standardmäßig installiert, und Sie können es mit dem folgenden Befehl überprüfen.

$ java -version

Wenn keine Ausgabe erfolgt, können Sie Java mithilfe unseres Artikels zur Installation von Java auf Ubuntu installieren oder einfach die folgenden Befehle ausführen, um Java auf Ubuntu- und Debian-basierten Distributionen zu installieren.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

Scala unter Ubuntu installieren

Als nächstes können Sie Scala installieren aus dem apt-Repository, indem Sie die folgenden Befehle ausführen, um nach scala zu suchen und es zu installieren.

Suchen Sie nach dem Paket

$ sudo apt search scala

Installieren Sie das Paket

$ sudo apt install scala -y

Um die Installation von Scala zu überprüfen , führen Sie den folgenden Befehl aus.

$ scala -version

Installieren Sie Apache Spark unter Ubuntu

Gehen Sie jetzt zur offiziellen Download-Seite von Apache Spark und holen Sie sich die neueste Version (d. h. 3.1.2) zum Zeitpunkt des Schreibens dieses Artikels. Alternativ können Sie den Befehl wget verwenden, um die Datei direkt im Terminal herunterzuladen.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

Öffnen Sie nun Ihr Terminal und wechseln Sie zu dem Ort, an dem sich Ihre heruntergeladene Datei befindet, und führen Sie den folgenden Befehl aus, um die Tar-Datei von Apache Spark zu extrahieren.

$ tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz

Bewegen Sie schließlich den extrahierten Spark Verzeichnis nach /opt Verzeichnis.

sudo mv spark-3.1.2-bin-hadoop3.2 /opt/spark

Variablen für Spark konfigurieren

Nun müssen Sie in Ihrem .profile einige Umgebungsvariablen setzen Datei, bevor Sie den Spark starten.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Um sicherzustellen, dass diese neuen Umgebungsvariablen innerhalb der Shell erreichbar und für Apache Spark verfügbar sind, muss auch der folgende Befehl ausgeführt werden, damit die letzten Änderungen wirksam werden.

$ source ~/.profile

Alle Spark-bezogenen Binärdateien zum Starten und Stoppen der Dienste befinden sich unter sbin Ordner.

$ ls -l /opt/spark

Apache Spark in Ubuntu starten

Führen Sie den folgenden Befehl aus, um Spark zu starten Master-Service und Slave-Service.

$ start-master.sh

Gehen Sie nach dem Start des Dienstes zum Browser und geben Sie die folgende URL für den Zugriff auf die Spark-Seite ein. Auf der Seite können Sie sehen, dass mein Master-Dienst gestartet wurde.

http://localhost:8080/

Dann können Sie mit diesem Befehl einen Arbeiter hinzufügen:

$ start-workers.sh spark://localhost:7077

Der Worker wird wie gezeigt hinzugefügt:

Sie können auch prüfen, ob spark-shell funktioniert gut, indem Sie die spark-shell starten Befehl.

$ spark-shell

So installieren Sie SpamAssassin unter Ubuntu/Debian

So installieren Sie ReactJS unter Ubuntu 21.04

Ubuntu

So installieren und konfigurieren Sie Apache Spark unter Ubuntu 20.04

So installieren Sie Apache Spark unter Ubuntu 18.04 LTS

So installieren Sie Apache Spark unter Ubuntu 20.04 LTS

So installieren und konfigurieren Sie Zsh in Ubuntu 20.04

So installieren und konfigurieren Sie Apache Spark unter Ubuntu/Debian

So installieren Sie Apache unter Ubuntu 20.04