Apache Spark ist ein Open-Source-Framework für verteilte Berechnungen, das erstellt wurde, um schnellere Berechnungsergebnisse bereitzustellen. Es ist eine In-Memory-Rechenmaschine, was bedeutet, dass die Daten im Speicher verarbeitet werden.
Funke unterstützt verschiedene APIs für Streaming, Graphverarbeitung, SQL, MLLib. Es unterstützt auch Java, Python, Scala und R als bevorzugte Sprachen. Spark wird hauptsächlich in Hadoop-Clustern installiert, aber Sie können Spark auch im Standalone-Modus installieren und konfigurieren.
In diesem Artikel erfahren Sie, wie Sie Apache Spark installieren in Debian und Ubuntu -basierte Distributionen.
Installieren Sie Java und Scala in Ubuntu
So installieren Sie Apache Spark in Ubuntu benötigen Sie Java und Scala auf Ihrem Rechner installiert. Bei den meisten modernen Distributionen ist Java standardmäßig installiert, und Sie können es mit dem folgenden Befehl überprüfen.
$ java -version
Wenn keine Ausgabe erfolgt, können Sie Java mithilfe unseres Artikels zur Installation von Java auf Ubuntu installieren oder einfach die folgenden Befehle ausführen, um Java auf Ubuntu- und Debian-basierten Distributionen zu installieren.
$ sudo apt update $ sudo apt install default-jre $ java -version
Als nächstes können Sie Scala installieren aus dem apt-Repository, indem Sie die folgenden Befehle ausführen, um nach scala zu suchen und es zu installieren.
$ sudo apt search scala ⇒ Search for the package $ sudo apt install scala ⇒ Install the package
Um die Installation von Scala zu überprüfen , führen Sie den folgenden Befehl aus.
$ scala -version Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
Installieren Sie Apache Spark unter Ubuntu
Gehen Sie jetzt zur offiziellen Download-Seite von Apache Spark und holen Sie sich die neueste Version (d. h. 3.1.1) zum Zeitpunkt des Schreibens dieses Artikels. Alternativ können Sie den Befehl wget verwenden, um die Datei direkt im Terminal herunterzuladen.
$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
Öffnen Sie nun Ihr Terminal und wechseln Sie zu dem Ort, an dem sich Ihre heruntergeladene Datei befindet, und führen Sie den folgenden Befehl aus, um die Tar-Datei von Apache Spark zu extrahieren.
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
Bewegen Sie schließlich den extrahierten Spark Verzeichnis nach /opt Verzeichnis.
$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark
Umgebungsvariablen für Spark konfigurieren
Nun müssen Sie in Ihrem .profile einige Umgebungsvariablen setzen Datei, bevor Sie den Spark starten.
$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile $ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile $ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
Um sicherzustellen, dass diese neuen Umgebungsvariablen innerhalb der Shell erreichbar und für Apache Spark verfügbar sind, muss auch der folgende Befehl ausgeführt werden, damit die letzten Änderungen wirksam werden.
$ source ~/.profile
Alle Spark-bezogenen Binärdateien zum Starten und Stoppen der Dienste befinden sich unter sbin Ordner.
$ ls -l /opt/spark
Apache Spark in Ubuntu starten
Führen Sie den folgenden Befehl aus, um Spark zu starten Master-Service und Slave-Service.
$ start-master.sh $ start-workers.sh spark://localhost:7077
Sobald der Dienst gestartet ist, gehen Sie zum Browser und geben Sie die folgende URL für den Zugriff auf die Spark-Seite ein. Auf der Seite können Sie sehen, dass mein Master- und Slave-Dienst gestartet wurde.
http://localhost:8080/ OR http://127.0.0.1:8080
Sie können auch prüfen, ob spark-shell funktioniert gut, indem Sie die spark-shell starten Befehl.
$ spark-shell
Das war es für diesen Artikel. Wir werden Sie sehr bald mit einem weiteren interessanten Artikel überraschen.