国产成人精品18p,天天干成人网,无码专区狠狠躁天天躁,美女脱精光隐私扒开免费观看

Alluxio 2.0:在云上實(shí)現超大規模數據工作負載

發(fā)布時(shí)間:2021-08-01 00:20 來(lái)源:網(wǎng)絡(luò )整理 閱讀:157 作者:浪尖聊大數據 欄目: 云計算 歡迎投稿:712375056

在規模方面取得階躍式變化——作為計算和存儲之間的數據編排層,Alluxio使得數據能夠移動(dòng),并且可以跨多個(gè)不同的存儲系統(HDFS、對象存儲、網(wǎng)絡(luò )附加存儲)訪(fǎng)問(wèn)。隨著(zhù)時(shí)間的推移,Alluxio需要支持管理的元數據規模會(huì )很輕易地超過(guò)最大規模的Hadoop部署。元數據管理尤其被認為是Hadoop的一個(gè)弱項,然而元數據的管理應該成為Alluxio的強項。

附錄鏈接:?

鏈接5:

https://www.alluxio.org/slack

一、構思和設計階段

?

與Hadoop主動(dòng)同步——該新功能是與HDFS iNotify進(jìn)行對接集成,可對存儲在Hadoop中的文件所發(fā)生的任何數據和元數據更改進(jìn)行更新,允許通過(guò)Alluxio訪(fǎng)問(wèn)數據的應用程序能夠主動(dòng)接收最新更新。

https://www.alluxio.org/docs/2.0-preview/en/api/POSIX-API.html

?

https://www.alluxio.org/docs/2.0-preview/en/operation/Journal.html?q=

考慮到這些遠大的目標,工程和產(chǎn)品團隊在設計、實(shí)現、測試和壓測中付出了不懈的努力,最終將Alluxio 2.0變?yōu)楝F實(shí)。

?

當核心項目團隊在若干個(gè)月之前開(kāi)始考慮下一個(gè)Alluxio大型版本發(fā)布時(shí),我們開(kāi)始力求實(shí)現一些重要的總體目標。雖然之前版本的Alluxio已經(jīng)為云環(huán)境中的許多大數據工作負載提供了數據本地性和數據可訪(fǎng)問(wèn)性,但在關(guān)鍵領(lǐng)域仍然需要進(jìn)一步創(chuàng )新。

二、進(jìn)步和功能

?

支持更多數據驅動(dòng)的工作負載——Alluxio在創(chuàng )立之初主要關(guān)注基于Hadoop的計算工作負載。但是多年來(lái),數據密集型計算工作負載的數量和類(lèi)型已經(jīng)呈爆炸式增長(cháng),并且在現有數據存儲系統或新數據存儲系統上實(shí)現這些工作負載的數據編排和工程設計都非常重要。特別地,在機器學(xué)習和深度學(xué)習的訓練過(guò)程之前,通常需要開(kāi)展許多數據工程的工作,例如手動(dòng)進(jìn)行數據移動(dòng)。Alluxio應該大大簡(jiǎn)化這一過(guò)程,為數據科學(xué)家提供已知原生API,減少所需的數據工程工作量。

?

自適應副本以增強數據本地性——該功能為Alluxio配置一定數量范圍的自動(dòng)管理的存儲數據副本數。alluxio.user.file.replication.max和alluxio.user.file.replication.min可用于指定該范圍。用戶(hù)可在此處(見(jiàn)文末鏈接6)找到所有用戶(hù)配置的完整列表。

鏈接7:

?

https://www.alluxio.org/docs/2.0-preview/en/reference/Properties-List.html?q=replication#worker-configuration

https://rocksdb.org/

內嵌式日志以達到高可用性——2.0設計了一種稱(chēng)為內嵌式日志(embedded journal)的面向文件/對象元數據的新容錯和高可用模式。內嵌式日志使用RAFT共識算法,并且實(shí)現方面獨立于任何其他外部存儲系統。這對于抽象對象存儲特別有用。用戶(hù)可以在這里(見(jiàn)文末鏈接7)了解如何配置內嵌式日志。

https://www.alluxio.org/download/releases/alluxio-200-preview-release

2.3 更好的存儲抽象,實(shí)現完全獨立和彈性的計算

支持跨不同版本的HDFS集群——數據的爆炸式增長(cháng)導致企業(yè)通常會(huì )擁有許多數據倉庫,包括采用跨不同版本的多個(gè)Hadoop集群。目前,跨這些集群的統一訪(fǎng)問(wèn)非常困難。使用Alluxio 2.0,用戶(hù)可以使用Alluxio連接到多個(gè)多種版本的HDFS集群,并實(shí)現統一的數據訪(fǎng)問(wèn)。用戶(hù)可以在此處查找支持的HDFS版本列表。

高度分布式數據服務(wù)——2.0引入了Alluxio作業(yè)服務(wù)(Job Service),這是一種分布式集群服務(wù),可以實(shí)現復制、持久化、跨存儲移動(dòng)和分布式加載等數據操作,從而實(shí)現高性能和大規模擴展。用戶(hù)可以在這里查看Alluxio支持的所有文件系統API(見(jiàn)文末鏈接5)。

2.2 支持在任意存儲上運行機器學(xué)習和深度學(xué)習工作負載

機器學(xué)習和深度學(xué)習框架往往需要從Hadoop或對象存儲中提取大規模數據,這通常是手動(dòng)且非常耗時(shí)的過(guò)程。

使存儲和計算更容易分離——隨著(zhù)跨多個(gè)Hadoop集群的數據的增加,以及越來(lái)越多的數據存儲在許多不同的對象存儲中,或在某些情況下存儲在內部或公有云中,企業(yè)中的數據倉庫會(huì )不斷增加。這使得從數據中分離計算變得更加困難,因為當數據在處理過(guò)程中移動(dòng)到與其存儲不同的位置時(shí),數據本地性和可訪(fǎng)問(wèn)性會(huì )受到嚴重影響。Alluxio應當繼續通過(guò)抽象存儲來(lái)實(shí)現計算和存儲的分離,同時(shí)使得數據更容易訪(fǎng)問(wèn)。

?????? Alluxio 2.0包含許多增強功能,用以支持本項目的設計目標,這些功能全部是開(kāi)源的,并都將包含在社區版(Community Edition)中!

三、反 饋

?

https://www.alluxio.org/docs/2.0-preview/en/basic/Command-Line-Interface.html?q=File%20System%20Operations#file-system-operations

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng )、來(lái)自本網(wǎng)站內容采集于網(wǎng)絡(luò )互聯(lián)網(wǎng)轉載等其它媒體和分享為主,內容觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如侵犯了原作者的版權,請告知一經(jīng)查實(shí),將立刻刪除涉嫌侵權內容,聯(lián)系我們QQ:712375056,同時(shí)歡迎投稿傳遞力量。

日本熟妇色熟妇在线视频播放| 国产精品亚洲а∨无码播放麻豆| 荡乳欲妇在线观看 | 亚洲精品第一国产综合精品| 男人把大JI巴放进女人免费视频| 伊人色综合一区二区三区|