GNU/Linux >> LINUX-Kenntnisse >  >> Ubuntu

So installieren und konfigurieren Sie Apache Spark unter Ubuntu/Debian

Apache Spark ist ein Open-Source-Framework für verteilte Berechnungen, das erstellt wurde, um schnellere Berechnungsergebnisse bereitzustellen. Es ist eine In-Memory-Rechenmaschine, was bedeutet, dass die Daten im Speicher verarbeitet werden.

Funke unterstützt verschiedene APIs für Streaming, Graphverarbeitung, SQL, MLLib. Es unterstützt auch Java, Python, Scala und R als bevorzugte Sprachen. Spark wird hauptsächlich in Hadoop-Clustern installiert, aber Sie können Spark auch im Standalone-Modus installieren und konfigurieren.

In diesem Artikel erfahren Sie, wie Sie Apache Spark installieren in Debian und Ubuntu -basierte Distributionen.

Installieren Sie Java und Scala in Ubuntu

So installieren Sie Apache Spark in Ubuntu benötigen Sie Java und Scala auf Ihrem Rechner installiert. Bei den meisten modernen Distributionen ist Java standardmäßig installiert, und Sie können es mit dem folgenden Befehl überprüfen.

$ java -version

Wenn keine Ausgabe erfolgt, können Sie Java mithilfe unseres Artikels zur Installation von Java auf Ubuntu installieren oder einfach die folgenden Befehle ausführen, um Java auf Ubuntu- und Debian-basierten Distributionen zu installieren.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

Als nächstes können Sie Scala installieren aus dem apt-Repository, indem Sie die folgenden Befehle ausführen, um nach scala zu suchen und es zu installieren.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package

Um die Installation von Scala zu überprüfen , führen Sie den folgenden Befehl aus.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Installieren Sie Apache Spark unter Ubuntu

Gehen Sie jetzt zur offiziellen Download-Seite von Apache Spark und holen Sie sich die neueste Version (d. h. 3.1.1) zum Zeitpunkt des Schreibens dieses Artikels. Alternativ können Sie den Befehl wget verwenden, um die Datei direkt im Terminal herunterzuladen.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Öffnen Sie nun Ihr Terminal und wechseln Sie zu dem Ort, an dem sich Ihre heruntergeladene Datei befindet, und führen Sie den folgenden Befehl aus, um die Tar-Datei von Apache Spark zu extrahieren.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Bewegen Sie schließlich den extrahierten Spark Verzeichnis nach /opt Verzeichnis.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Umgebungsvariablen für Spark konfigurieren

Nun müssen Sie in Ihrem .profile einige Umgebungsvariablen setzen Datei, bevor Sie den Spark starten.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Um sicherzustellen, dass diese neuen Umgebungsvariablen innerhalb der Shell erreichbar und für Apache Spark verfügbar sind, muss auch der folgende Befehl ausgeführt werden, damit die letzten Änderungen wirksam werden.

$ source ~/.profile

Alle Spark-bezogenen Binärdateien zum Starten und Stoppen der Dienste befinden sich unter sbin Ordner.

$ ls -l /opt/spark

Apache Spark in Ubuntu starten

Führen Sie den folgenden Befehl aus, um Spark zu starten Master-Service und Slave-Service.

$ start-master.sh
$ start-workers.sh spark://localhost:7077

Sobald der Dienst gestartet ist, gehen Sie zum Browser und geben Sie die folgende URL für den Zugriff auf die Spark-Seite ein. Auf der Seite können Sie sehen, dass mein Master- und Slave-Dienst gestartet wurde.

http://localhost:8080/
OR
http://127.0.0.1:8080

Sie können auch prüfen, ob spark-shell funktioniert gut, indem Sie die spark-shell starten Befehl.

$ spark-shell

Das war es für diesen Artikel. Wir werden Sie sehr bald mit einem weiteren interessanten Artikel überraschen.


Ubuntu
  1. So installieren Sie Netflix in Kodi unter Ubuntu und Debian

  2. So installieren und konfigurieren Sie Webmin unter Debian / Ubuntu

  3. So installieren Sie Python 3.7 unter Ubuntu, Debian und LinuxMint

  4. So installieren Sie Apache Maven unter Ubuntu 18.04 und 16.04

  5. Installieren und konfigurieren Sie Apache Spark unter Ubuntu 20.04

So installieren Sie Apache Spark unter Debian 10

So installieren Sie Apache Spark unter Debian 11

So installieren Sie Apache Spark unter Ubuntu 18.04 LTS

So installieren Sie Apache Spark unter Ubuntu 20.04 LTS

So installieren Sie Jitsi Meet unter Debian und Ubuntu

So installieren Sie Drupal mit Apache auf Debian und Ubuntu