為您提供行業(yè)資訊、活動(dòng)公告、產(chǎn)品發(fā)布,匯聚最前沿流行的云計算技術(shù)
apache spark 前幾年在學(xué)術(shù)界是非?;鸬?,最近幾年可能不是那么火了,因為能研究的問(wèn)題似乎都已經(jīng)被研究的差不多了,最近都開(kāi)始研究新的分布式框架了。本文就介紹一下如何在 ubuntu 20.04 Linux 操作系統上安裝 Apache Spark 教程,包括安裝 Java、安裝 Apache Spark、以及通過(guò) Apache Spark Web 界面訪(fǎng)問(wèn)的教程。Apache Spark 是一個(gè)用于大規模數據處理的開(kāi)源、通用、多語(yǔ)言分析引擎。通過(guò)利用集群中的 RAM 對大量數據執行快速數據查詢(xún),它可以在單個(gè)和多個(gè)節點(diǎn)上工作。它提供批處理數據處理和實(shí)時(shí)流式傳輸,并支持 Python、SQL、Scala、Java 或 R 等語(yǔ)言的高級 API。該框架提供內存技術(shù),使其能夠將查詢(xún)和數據直接存儲在集群節點(diǎn)的主存儲器。
一、安裝 Java
更新系統包:
$ sudo apt update
安裝 Java:
$ sudo apt install default-jdk -y
確認 Java 安裝:
$ java -version
二、安裝 Apache Spark
安裝必要的包:
$ sudo apt install curl mlocate git scala -y
下載 Apache Spark,最新版可以在這里下載:https://spark.apache.org/downloads.html
$ curl -O https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
解壓 Spark 安裝包:
$ sudo tar xvf spark-3.2.0-bin-hadoop3.2.tgz
創(chuàng )建安裝目錄:
$ sudo mkdir /opt/spark
移動(dòng)文件到安裝目錄:
$ sudo mv spark-3.2.0-bin-hadoop3.2/* /opt/spark
修改目錄權限:
$ sudo chmod -R 777 /opt/spark
編輯 bashrc 配置文件,將 Apache Spark 安裝目錄添加到系統路徑:
$ sudo nano ~/.bashrc
將下面兩行代碼添加到文件最后:
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
保存文件并使之生效:
$ source ~/.bashrc
啟動(dòng)獨立主服務(wù)器:
$ start-master.sh
通過(guò)訪(fǎng)問(wèn) http://ServerIPaddress:8080 從儀表板中查找您的服務(wù)器主機名。它可能看起來(lái)像這樣:
URL: spark://my-server-development:7077
啟動(dòng) Apache Spark 工作進(jìn)程。使用您的服務(wù)器主機名更改 spark://ubuntu:7077。
$ start-slave.sh spark://ubuntu:7077
三、訪(fǎng)問(wèn) Apache Spark Web 界面
轉到瀏覽器地址欄以訪(fǎng)問(wèn) Web 界面并輸入 http://ServerIPaddress:8080 以訪(fǎng)問(wèn) Web 安裝向導。例如:
http://192.0.2.10:8080
至此,您已在服務(wù)器上安裝了 Apache Spark。您現在可以訪(fǎng)問(wèn)主儀表板,開(kāi)始管理您的集群。
搬瓦工VPS套餐
搬瓦工美國CN2 GIA/日本軟銀
最高10Gbps帶寬,可選:美國cn2 gia、日本軟銀,企業(yè)級高端網(wǎng)絡(luò )帶寬。VPS基于KVM虛擬,SSD raid10陣列,自帶一個(gè)IPv4,免費支持snapshot快照功能(可以導入、導出)和Backup(備份功能),可以一鍵更換IP、一鍵切換機房。
內存 | CPU | SSD | 流量 | 帶寬 | 價(jià)格 | 購買(mǎi) |
1G | 2核 | 20G | 1.0T/月 | 2.5G | $50/季 | 鏈接 |
2G | 3核 | 40G | 2.0T/月 | 2.5G | $90/季 | 鏈接 |
4G | 4核 | 80G | 3.0T/月 | 2.5G | $57/月 | 鏈接 |
8G | 6核 | 160G | 5.0T/月 | 5.0G | $87/月 | 鏈接 |
16G | 8核 | 320G | 8.0T/月 | 10G | $160/月 | 鏈接 |
32G | 10核 | 640G | 10.0T/月 | 10G | $290/月 | 鏈接 |
64G | 12核 | 1280G | 12.0T/月 | 10G | $550/月 | 鏈接 |
更多資訊:更多資訊
本站發(fā)布的【搬瓦工Ubuntu 20.04上安裝Apache Spark教程】?jì)热荩▓D片、視頻和文字)以原創(chuàng )、轉載和分享為主,文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng)
如果涉及侵權請盡快告知,我們將會(huì )在第一時(shí)間立刻刪除涉嫌侵權內容,本站原創(chuàng )內容未經(jīng)允許不得轉載,或轉載時(shí)需注明出處。
Copyright ? 2009-2024 56dr.com. All Rights Reserved. 特網(wǎng)科技 版權所有 珠海市特網(wǎng)科技有限公司 粵ICP備16109289號
域名注冊服務(wù)機構:阿里云計算有限公司(萬(wàn)網(wǎng)) 域名服務(wù)機構:煙臺帝思普網(wǎng)絡(luò )科技有限公司(DNSPod) CDN服務(wù):阿里云計算有限公司 百度云 中國互聯(lián)網(wǎng)舉報中心 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2
建議您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流瀏覽器瀏覽本網(wǎng)站