數據目錄已成為企業(yè)數據管理策略的重要組成部分,但選擇合適的數據目錄并不是簡(jiǎn)單的事情。在做決定前,必須了解市場(chǎng)上的各種選項以及應優(yōu)先考慮端事項。
數據目錄是元數據管理工具,可幫助企業(yè)查找和管理大量數據。數據目錄背后的想法是將元數據集中在一個(gè)位置,并提供整個(gè)數據庫中數據的完整視圖。它還包含有關(guān)每個(gè)特定數據點(diǎn)位置的信息。
在選擇供應商之前,企業(yè)需要了解這個(gè)市場(chǎng)以及他們的需求和期望。本文可幫助你選擇最適合你企業(yè)數據的數據目錄。
Gartner公司高級研究主管Joe Maguire認為,企業(yè)對數據目錄工具的需求主要源自三個(gè)方面。
企業(yè)使用數據目錄的第一推動(dòng)因素是元數據管理變得越來(lái)越困難。數據架構更加復雜,并且數據量太大,以至于無(wú)法手動(dòng)收集和描述元數據。
Maguire說(shuō):“即使是旨在簡(jiǎn)化架構的技術(shù)(例如數據湖提供單個(gè)架構組件用于存儲各種數據)也可能使元數據管理變得復雜?!?/p>
面對數據量不斷增長(cháng),有些企業(yè)并沒(méi)有擴大其元數據管理。
Maguire說(shuō):“正是由于忽略數據湖中的元數據,人們不得不創(chuàng )造出‘數據沼澤’的術(shù)語(yǔ),以描述數據混亂而無(wú)人可清理的數據湖?!?/p>
第二個(gè)因素是,隨著(zhù)企業(yè)追求自助服務(wù)分析和數據科學(xué),對數據治理的需求也在增加。這也導致對數據目錄的更高需求。元數據是數據治理的基礎,數據目錄使訪(fǎng)問(wèn)元數據更加容易。
第三個(gè)因素是這個(gè)市場(chǎng)已經(jīng)證明自己的價(jià)值。供應商的產(chǎn)品已經(jīng)變得越來(lái)越多樣化,并可真正幫助需要數據治理和元數據管理的企業(yè)。自動(dòng)元數據發(fā)現、數據沿襲和對數據管理活動(dòng)的支持等功能,使數據目錄對企業(yè)具有吸引力。
根據Maguire的說(shuō)法,在討論數據目錄時(shí),最重要的區別是了解企業(yè)數據目錄和嵌入式數據目錄之間的差異。
Maguire說(shuō):“企業(yè)數據目錄旨在整合來(lái)自各種元數據孤島的元數據,而嵌入式數據目錄是其他產(chǎn)品中提供的元數據管理功能集?!?/p>
企業(yè)數據目錄選項可以是DBMS、數據倉庫或BI平臺。嵌入式數據目錄則形成元數據孤島–企業(yè)數據目錄試圖整合的元數據孤島。
下面是最常見(jiàn)數據目錄:
獨立數據目錄。這些數據目錄具有通用性、獨立性和面向業(yè)務(wù)的特點(diǎn),可廣泛用于數據管理、分析和數據治理。此選項適用于必須對多個(gè)用例進(jìn)行數據分類(lèi)的企業(yè)。目前提供獨立數據目錄的供應商包括Alation、Collibra、Informatica和Data.World。
提供目錄功能的元數據管理工具?,F代數據目錄主要針對數據管理員和數據分析師,他們可自動(dòng)執行元數據管理任務(wù)。Gartner在有關(guān)增強數據目錄的最新報告中警告說(shuō),有些供應商將其元數據管理工具重新命名為數據目錄。你應該自己做研究以確保你選擇正確的工具。
具有數據目錄功能的Data Lake支持工具。隨著(zhù)企業(yè)繼續構建數據湖,他們需要可搜索且可重復使用的數據。這導致供應商在其產(chǎn)品中增加數據目錄方面。Zaloni和Cloudera Navigator都屬于此類(lèi)。那些因采用數據湖而感到畏縮的企業(yè)可考慮這些供應商。
當你的企業(yè)確定選擇企業(yè)數據目錄或嵌入式數據目錄后,你就可以繼續尋找功能。好的數據目錄應該提供很多功能。
作為企業(yè),應該由你自己的團隊來(lái)確定哪種產(chǎn)品與你的數據最相關(guān)。供應商的數據目錄具有某些共同特征,必須首先對其質(zhì)量進(jìn)行評估。
數據目錄的重要功能在于其搜索功能。如果沒(méi)有靈活的搜索和過(guò)濾器選項,用戶(hù)將無(wú)法找到用于數據工程和分析目的數據集。數據目錄還必須從大量關(guān)聯(lián)數據資產(chǎn)收集元數據。它還必須提供自動(dòng)化和數據智能,以處理與數據目錄相關(guān)的手動(dòng)任務(wù)。人工智能和機器學(xué)習可通過(guò)推薦來(lái)增強數據。
數據目錄還應該可連接到企業(yè)內數據架構的各個(gè)組件。Maguire說(shuō),企業(yè)數據目錄可以被視為元數據的數據倉庫。數據目錄從元數據孤島整合元數據,類(lèi)似于數據倉庫從數據倉孤島中整合數據。
數據目錄另一個(gè)重要功能是提供連接器,以從各種組件(例如DBMS、BI工具和數據倉庫)獲取元數據。數據目錄支持以下四種類(lèi)型的元數據:
市面上有很多企業(yè)和嵌入式數據目錄,這些選項通常具有相似功能和重疊功能。下面是對數據目錄選項的簡(jiǎn)短比較。
Alation數據目錄。Alation是獨立的數據目錄工具,使用AI來(lái)捕獲企業(yè)內數據的背景信息。它被認為是所有員工都可易于使用的選項。
Qlik目錄。Qlik的數據目錄還具有自動(dòng)化的數據準備和元數據工具,以協(xié)助原始數據的轉換。它還具有數據市場(chǎng),允許用戶(hù)搜索和發(fā)布數據集。
Cloudera數據目錄。Cloudera的數據目錄使用戶(hù)可以發(fā)現、記錄和監視其數據。同時(shí),此產(chǎn)品允許用戶(hù)審核訪(fǎng)問(wèn)并保護敏感信息,以避免未經(jīng)授權訪(fǎng)問(wèn)。
Collibra目錄。該選項是另一個(gè)獨立的數據目錄,它是基于業(yè)務(wù)最終用戶(hù)而構建。它是可搜索的存儲庫,使查找和理解數據更加容易。它還允許管理員記錄角色和職責。
IBM Watson知識目錄。這是用于人工智能模型治理以及數據的開(kāi)放智能數據目錄。此選項為用戶(hù)提供實(shí)時(shí)數據虛擬化支持、動(dòng)態(tài)數據屏蔽和自動(dòng)元數據生成。
Oracle云基礎架構。Oracle產(chǎn)品提供了搜索和探索選項,使用戶(hù)可以通過(guò)多方面的搜索和過(guò)濾器從各種不同的來(lái)源中查找數據,并收集有關(guān)數據資產(chǎn)的技術(shù)元數據。
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng )、來(lái)自本網(wǎng)站內容采集于網(wǎng)絡(luò )互聯(lián)網(wǎng)轉載等其它媒體和分享為主,內容觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如侵犯了原作者的版權,請告知一經(jīng)查實(shí),將立刻刪除涉嫌侵權內容,聯(lián)系我們QQ:712375056,同時(shí)歡迎投稿傳遞力量。
Copyright ? 2009-2022 56dr.com. All Rights Reserved. 特網(wǎng)科技 特網(wǎng)云 版權所有 特網(wǎng)科技 粵ICP備16109289號
域名注冊服務(wù)機構:阿里云計算有限公司(萬(wàn)網(wǎng)) 域名服務(wù)機構:煙臺帝思普網(wǎng)絡(luò )科技有限公司(DNSPod) CDN服務(wù):阿里云計算有限公司 百度云 中國互聯(lián)網(wǎng)舉報中心 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2
建議您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流瀏覽器瀏覽本網(wǎng)站