GNU/Linux >> LINUX-Kenntnisse >  >> Ubuntu

So installieren Sie Apache Spark unter Ubuntu 20.04 LTS

In diesem Tutorial zeigen wir Ihnen, wie Sie Apache Spark auf Ubuntu 20.04 LTS installieren. Für diejenigen unter Ihnen, die es nicht wussten, Apache Spark ist ein schnelles und universelles Cluster-Computing-System . Es bietet High-Level-APIs in Java, Scala und Python sowie eine optimierte Engine, die Gesamtausführungsdiagramme unterstützt. Es unterstützt auch eine Vielzahl von High-Level-Tools, darunter Spark SQL für SQL und strukturierte Informationsverarbeitung, MLlib für Maschinen Learning, GraphX ​​für die Grafikverarbeitung und Spark Streaming.

Dieser Artikel geht davon aus, dass Sie zumindest über Grundkenntnisse in Linux verfügen, wissen, wie man die Shell verwendet, und vor allem, dass Sie Ihre Website auf Ihrem eigenen VPS hosten. Die Installation ist recht einfach und setzt Sie voraus im Root-Konto ausgeführt werden, wenn nicht, müssen Sie möglicherweise 'sudo hinzufügen ‘ zu den Befehlen, um Root-Rechte zu erhalten. Ich zeige Ihnen Schritt für Schritt die Installation von Apache Spark auf einem 20.04 LTS (Focal Fossa) Server. Sie können denselben Anweisungen für Ubuntu 18.04, 16.04 und jede andere Debian-basierte Distribution wie Linux Mint folgen.

Voraussetzungen

  • Ein Server, auf dem eines der folgenden Betriebssysteme ausgeführt wird:Ubuntu 20.04, 18.04, 16.04 und jede andere Debian-basierte Distribution wie Linux Mint.
  • Es wird empfohlen, dass Sie eine neue Betriebssysteminstallation verwenden, um potenziellen Problemen vorzubeugen.
  • Ein non-root sudo user oder Zugriff auf den root user . Wir empfehlen, als non-root sudo user zu agieren , da Sie Ihr System beschädigen können, wenn Sie als Root nicht aufpassen.

Installieren Sie Apache Spark auf Ubuntu 20.04 LTS Focal Fossa

Schritt 1. Stellen Sie zunächst sicher, dass alle Ihre Systempakete auf dem neuesten Stand sind, indem Sie den folgenden apt ausführen Befehle im Terminal.

sudo apt update
sudo apt upgrade

Schritt 2. Java installieren.

Apache Spark benötigt Java, um ausgeführt zu werden, stellen wir sicher, dass Java auf unserem Ubuntu-System installiert ist:

sudo apt install default-jdk

Wir testen die Java-Version über die folgende Befehlszeile:

java -version

Schritt 3. Apache Spark herunterladen und installieren.

Laden Sie die neueste Version von Apache Spark von der Download-Seite herunter:

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz
tar xvzf spark-3.0.0-bin-hadoop2.7.tgz
sudo mv spark-3.0.0-bin-hadoop2.7/ /opt/spark

Als nächstes konfigurieren Sie die Apache Spark-Umgebung:

nano ~/.bashrc

Fügen Sie als Nächstes diese Zeilen am Ende der .bashrc-Datei hinzu, damit der Pfad den Pfad der ausführbaren Spark-Datei enthalten kann:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Änderungen aktivieren:

source ~/.bashrc

Schritt 4. Starten Sie den eigenständigen Spark-Masterserver.

Nachdem Sie die Konfiguration Ihrer Umgebung für Spark abgeschlossen haben, können Sie einen Master-Server starten:

start-master.sh

Um die Spark Web-Benutzeroberfläche anzuzeigen, öffnen Sie einen Webbrowser und geben Sie die localhost-IP-Adresse auf Port 8080 ein:

http://127.0.0.1:8080/

In diesem Einzelserver-Standalone-Setup starten wir einen Slave-Server zusammen mit dem Master-Server. Die start-slave.sh Der Befehl wird verwendet, um den Spark-Worker-Prozess zu starten:

start-slave.sh spark://ubuntu1:7077

Jetzt, da ein Worker betriebsbereit ist und ausgeführt wird, sollten Sie ihn in der Liste sehen, wenn Sie die Web-Benutzeroberfläche von Spark Master neu laden:

Danach die Konfiguration abschließen und den Master- und Slave-Server starten, testen ob die Spark-Shell funktioniert:

spark-shell

Herzlichen Glückwunsch! Sie haben Apache Spark erfolgreich installiert. Vielen Dank, dass Sie dieses Tutorial zur Installation von Apache Spark auf einem Ubuntu 20.04 (Focal Fossa)-System verwendet haben. Für zusätzliche Hilfe oder nützliche Informationen empfehlen wir Ihnen, die offizielle Apache Spark-Website.


Ubuntu
  1. So installieren Sie Apache Maven unter Ubuntu 16.04 LTS

  2. So installieren Sie Apache Cordova unter Ubuntu 18.04 LTS

  3. So installieren Sie Apache Kafka unter Ubuntu 18.04 LTS

  4. So installieren Sie Apache Hadoop auf Ubuntu 18.04 LTS

  5. So installieren Sie Apache Solr unter Ubuntu 20.04 LTS

So installieren Sie Apache Spark unter Ubuntu 18.04 LTS

So installieren Sie Apache Maven unter Ubuntu 18.04 LTS

So installieren Sie Apache CouchDB auf Ubuntu 18.04 LTS

So installieren Sie Apache Cassandra unter Ubuntu 18.04 LTS

So installieren Sie Apache unter Ubuntu 20.04 LTS

So installieren Sie Apache Spark unter Ubuntu 20.04 LTS