數據分析解決方案如今不斷涌現。數據團隊處于風(fēng)暴的中心,因為他們必須平衡對訪(fǎng)問(wèn)、數據完整性、安全性和適當治理的所有需求,這需要遵守相關(guān)政策和法規。他們所服務(wù)的企業(yè)需要盡快獲得信息,并且需要應對不平衡的行為,數據團隊必須快速而明智地采取行動(dòng)。
他們還必須進(jìn)行分析和預測,因為他們不僅需要為現在構建系統,還需要為未來(lái)構建平臺。數據團隊首先必須考慮的一個(gè)關(guān)鍵問(wèn)題是:開(kāi)放或封閉的數據架構。
先從術(shù)語(yǔ)“數據架構”開(kāi)始。如果要展示多年來(lái)任何一個(gè)企業(yè)的架構圖,很可能他們的數據標簽實(shí)際上是代表數據庫的標簽——并不是數據本身,而是對數據起作用的引擎。人們可能對這些名稱(chēng)很熟悉,例如Oracle、DB2、SQL Server、Teradata、Exadata、Snowflake等。這些都是為了加載數據集用于操作或分析目的的數據庫,它們是“數據架構”的基礎。
根據定義,這些數據庫就是所說(shuō)的“封閉數據架構”。這意味著(zhù)數據本身與其他應用程序隔離,必須通過(guò)數據庫引擎訪(fǎng)問(wèn)。即使使用ETL作業(yè)移動(dòng)數據也是如此,因為在某些時(shí)候,要進(jìn)行導出或導入,需要遍歷數據庫,無(wú)論這是否是實(shí)現企業(yè)想要做的事情的最佳方式。在這個(gè)重要的意義上,數據與架構的其余部分是“封閉”的。
總之,封閉的數據架構將數據帶到數據庫引擎,而開(kāi)放的數據架構將數據庫引擎帶到數據。
測試企業(yè)是否正在處理開(kāi)放式架構的一種簡(jiǎn)單方法是考慮未來(lái)采用新引擎的難度。能否將新引擎與現有引擎(在相同數據上)并行運行,還是需要進(jìn)行大規模(并且可能不切實(shí)際)的遷移?
需要注意的是,在這一點(diǎn)上,已經(jīng)觸及了與開(kāi)源無(wú)關(guān)的“開(kāi)放”的一個(gè)關(guān)鍵方面。第一步是決定希望其數據開(kāi)放并可供任何希望利用它的服務(wù),這將在云計算世界中開(kāi)放。
當應用程序從客戶(hù)端-服務(wù)器遷移到Web時(shí),基本架構發(fā)生了變化。從在一個(gè)進(jìn)程中運行的單一應用程序轉變?yōu)槊嫦蚍?wù)的應用程序,這些應用程序被分解為更小、更專(zhuān)業(yè)的軟件服務(wù)。這些最終被稱(chēng)為“微服務(wù)”,并且它們仍然是Web和移動(dòng)應用程序的主導設計。由于云計算基礎設施的性質(zhì),微服務(wù)方法具有許多優(yōu)勢。在具有按需資源模型和眾多團隊致力于功能塊的橫向擴展系統中,應用程序只不過(guò)是數十或數百個(gè)微服務(wù)的外觀(guān)。
很多人都認為這種方法在構建模塊化和可擴展的應用程序方面具有許多優(yōu)勢。出于某種原因,應該相信這種范式對數據并沒(méi)有那么有效。專(zhuān)家指出,以與應用程序相同的開(kāi)放、面向服務(wù)的方式查看數據的邏輯是顯而易見(jiàn)并且可取的。在實(shí)踐和戰略層面,開(kāi)放的、面向服務(wù)的數據架構才有意義。
這就是為什么說(shuō)開(kāi)源軟件的問(wèn)題是次要的原因。最重要的 “開(kāi)放”是決定開(kāi)放數據架構比封閉數據架構更可取的第一步。一旦發(fā)生這種情況,就會(huì )出現一個(gè)分水嶺。開(kāi)放文件和表格格式(Apache Parquet、Apache Iceberg等)非常重要,因為它們允許全行業(yè)創(chuàng )新。其創(chuàng )新以服務(wù)于獨立開(kāi)發(fā)者的形式交付。雜亂、昂貴、脆弱和破壞合規性的數據被顯著(zhù)減少甚至消除。數據團隊可以從同類(lèi)最佳的服務(wù)中進(jìn)行選擇來(lái)處理該數據,并將它們放入架構中,就像人們十多年來(lái)對應用程序服務(wù)所做的一樣。是時(shí)候讓數據架構迎頭趕上了。
那些對開(kāi)放數據架構的價(jià)值提出異議的人表示它們太復雜了。任何重大的技術(shù)轉變都會(huì )帶來(lái)復雜性。中型機最初比已建立的大型機更難以管理。然后,基于Intel架構的服務(wù)器最初比已建立的中端系統更難以管理。管理個(gè)人電腦最初比管理已建立的啞終端更復雜。而每次發(fā)生技術(shù)轉變時(shí),它都會(huì )通過(guò)正常的采用曲線(xiàn)進(jìn)入應用主流。從管理的角度來(lái)看,早期總是更加復雜,但隨著(zhù)時(shí)間的推移,新的工具和方法會(huì )降低這種復雜性,從而產(chǎn)生遠遠超過(guò)初始復雜性成本的收益。這就是為什么進(jìn)行技術(shù)創(chuàng )新的原因。
Dremio是一款DaaS平臺,其創(chuàng )建是為了使開(kāi)放的、面向服務(wù)的數據架構變得更加容易和強大。使用Dremio,由于可以將所有部分放在一起,因此對Lakehouse運行SQL很容易。在這一過(guò)程中,創(chuàng )建了改變行業(yè)的開(kāi)源項目,例如Nessie、ApacheArrow和ArrowFlight。這些是開(kāi)源項目,因為開(kāi)源技術(shù)鼓勵采用和互操作性,這對于企業(yè)數據架構中的服務(wù)集成層至關(guān)重要??蛻?hù)之所以受益,是因為他們可以采用創(chuàng )新的關(guān)鍵技術(shù),以更好地為他們服務(wù)。開(kāi)源愛(ài)好者之所以受益,是因為他們可以訪(fǎng)問(wèn)代碼以更好地理解它,甚至改進(jìn)它。行業(yè)廠(chǎng)商之所以受益,是因為可以使用這些創(chuàng )新來(lái)快速輕松地在Lakehouses上創(chuàng )建SQL。
對這個(gè)討論提出一個(gè)很好的觀(guān)點(diǎn),現實(shí)上,無(wú)論供應商聲稱(chēng)多么“開(kāi)放”,無(wú)論他們如何談?wù)撝С珠_(kāi)放格式和開(kāi)放標準,即使該供應商的核心是開(kāi)源的,如果數據架構是封閉的,那么它就是封閉的。
Snowflake公司在最近發(fā)表的一篇文章中提出的關(guān)鍵一點(diǎn)是,需要在數據格式和存儲所有權等方面進(jìn)行封閉以滿(mǎn)足業(yè)務(wù)需求。雖然這在多年前可能需要這么做,但云存儲和事務(wù)表格式等最近的進(jìn)步現在使開(kāi)放式架構能夠滿(mǎn)足這些要求。如果企業(yè)可以通過(guò)開(kāi)放式架構和隨之而來(lái)的所有好處來(lái)滿(mǎn)足其要求,那么為什么要選擇封閉式架構呢?
行業(yè)專(zhuān)家倡導數據本身成為架構中一等公民的世界。對于想要從開(kāi)放架構中愛(ài)益的企業(yè),行業(yè)廠(chǎng)商正在使這一點(diǎn)變得越來(lái)越容易實(shí)現,例如:(1)靈活地使用最適合不同工作的同類(lèi)最佳引擎;(2)避免被鎖定通過(guò)專(zhuān)有引擎來(lái)訪(fǎng)問(wèn)他們的數據;(3)做好準備以利用未來(lái)的創(chuàng )新;(4)消除無(wú)休止地將數據復制和移出數據倉庫所造成的復雜性。
行業(yè)廠(chǎng)商不僅致力于開(kāi)放標準和開(kāi)源,盡管它們可能很重要,但首先致力于開(kāi)放數據架構。因為隨著(zhù)它們變得越來(lái)越容易實(shí)現和使用,與封閉的數據架構相比,其優(yōu)勢是壓倒性的。
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng )、來(lái)自本網(wǎng)站內容采集于網(wǎng)絡(luò )互聯(lián)網(wǎng)轉載等其它媒體和分享為主,內容觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如侵犯了原作者的版權,請告知一經(jīng)查實(shí),將立刻刪除涉嫌侵權內容,聯(lián)系我們QQ:712375056,同時(shí)歡迎投稿傳遞力量。
Copyright ? 2009-2022 56dr.com. All Rights Reserved. 特網(wǎng)科技 特網(wǎng)云 版權所有 特網(wǎng)科技 粵ICP備16109289號
域名注冊服務(wù)機構:阿里云計算有限公司(萬(wàn)網(wǎng)) 域名服務(wù)機構:煙臺帝思普網(wǎng)絡(luò )科技有限公司(DNSPod) CDN服務(wù):阿里云計算有限公司 百度云 中國互聯(lián)網(wǎng)舉報中心 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2
建議您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流瀏覽器瀏覽本網(wǎng)站