In diesem Tutorial zeigen wir Ihnen, wie Sie Apache Spark auf Ubuntu 20.04 LTS installieren. Für diejenigen unter Ihnen, die es nicht wussten, Apache Spark ist ein schnelles und universelles Cluster-Computing-System . Es bietet High-Level-APIs in Java, Scala und Python sowie eine optimierte Engine, die Gesamtausführungsdiagramme unterstützt. Es unterstützt auch eine Vielzahl von High-Level-Tools, darunter Spark SQL für SQL und strukturierte Informationsverarbeitung, MLlib für Maschinen Learning, GraphX für die Grafikverarbeitung und Spark Streaming.
Dieser Artikel geht davon aus, dass Sie zumindest über Grundkenntnisse in Linux verfügen, wissen, wie man die Shell verwendet, und vor allem, dass Sie Ihre Website auf Ihrem eigenen VPS hosten. Die Installation ist recht einfach und setzt Sie voraus im Root-Konto ausgeführt werden, wenn nicht, müssen Sie möglicherweise 'sudo
hinzufügen ‘ zu den Befehlen, um Root-Rechte zu erhalten. Ich zeige Ihnen Schritt für Schritt die Installation von Apache Spark auf einem 20.04 LTS (Focal Fossa) Server. Sie können denselben Anweisungen für Ubuntu 18.04, 16.04 und jede andere Debian-basierte Distribution wie Linux Mint folgen.
Voraussetzungen
- Ein Server, auf dem eines der folgenden Betriebssysteme ausgeführt wird:Ubuntu 20.04, 18.04, 16.04 und jede andere Debian-basierte Distribution wie Linux Mint.
- Es wird empfohlen, dass Sie eine neue Betriebssysteminstallation verwenden, um potenziellen Problemen vorzubeugen.
- Ein
non-root sudo user
oder Zugriff auf denroot user
. Wir empfehlen, alsnon-root sudo user
zu agieren , da Sie Ihr System beschädigen können, wenn Sie als Root nicht aufpassen.
Installieren Sie Apache Spark auf Ubuntu 20.04 LTS Focal Fossa
Schritt 1. Stellen Sie zunächst sicher, dass alle Ihre Systempakete auf dem neuesten Stand sind, indem Sie den folgenden apt
ausführen Befehle im Terminal.
sudo apt update sudo apt upgrade
Schritt 2. Java installieren.
Apache Spark benötigt Java, um ausgeführt zu werden, stellen wir sicher, dass Java auf unserem Ubuntu-System installiert ist:
sudo apt install default-jdk
Wir testen die Java-Version über die folgende Befehlszeile:
java -version
Schritt 3. Apache Spark herunterladen und installieren.
Laden Sie die neueste Version von Apache Spark von der Download-Seite herunter:
wget https://www.apache.org/dyn/closer.lua/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz tar xvzf spark-3.0.0-bin-hadoop2.7.tgz sudo mv spark-3.0.0-bin-hadoop2.7/ /opt/spark
Als nächstes konfigurieren Sie die Apache Spark-Umgebung:
nano ~/.bashrc
Fügen Sie als Nächstes diese Zeilen am Ende der .bashrc-Datei hinzu, damit der Pfad den Pfad der ausführbaren Spark-Datei enthalten kann:
export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Änderungen aktivieren:
source ~/.bashrc
Schritt 4. Starten Sie den eigenständigen Spark-Masterserver.
Nachdem Sie die Konfiguration Ihrer Umgebung für Spark abgeschlossen haben, können Sie einen Master-Server starten:
start-master.sh
Um die Spark Web-Benutzeroberfläche anzuzeigen, öffnen Sie einen Webbrowser und geben Sie die localhost-IP-Adresse auf Port 8080 ein:
http://127.0.0.1:8080/
In diesem Einzelserver-Standalone-Setup starten wir einen Slave-Server zusammen mit dem Master-Server. Die start-slave.sh
Der Befehl wird verwendet, um den Spark-Worker-Prozess zu starten:
start-slave.sh spark://ubuntu1:7077
Jetzt, da ein Worker betriebsbereit ist und ausgeführt wird, sollten Sie ihn in der Liste sehen, wenn Sie die Web-Benutzeroberfläche von Spark Master neu laden:
Danach die Konfiguration abschließen und den Master- und Slave-Server starten, testen ob die Spark-Shell funktioniert:
spark-shell
Herzlichen Glückwunsch! Sie haben Apache Spark erfolgreich installiert. Vielen Dank, dass Sie dieses Tutorial zur Installation von Apache Spark auf einem Ubuntu 20.04 (Focal Fossa)-System verwendet haben. Für zusätzliche Hilfe oder nützliche Informationen empfehlen wir Ihnen, die offizielle Apache Spark-Website.