數據遷移平臺的特點(diǎn)有哪些?
發(fā)布時(shí)間:2022-05-23 09:27
來(lái)源:新網(wǎng)知識社區
閱讀:162
作者:新網(wǎng)知識社區
欄目: 虛擬主機
歡迎投稿:712375056
??是一種將離線(xiàn)存儲與在線(xiàn)存儲融合的技術(shù)。它將高速、高容量的非在線(xiàn)存儲設備作為磁盤(pán)設備的下一級設備,然后將磁盤(pán)中常用的 數據按指定的策略自動(dòng)遷移到磁帶庫(簡(jiǎn)稱(chēng)帶庫)等二級大容量存儲設備上。當需要使用這些數據時(shí),分級存儲系統會(huì )自動(dòng)將這些數據從下一級存儲設備調回到上一 級磁盤(pán)上。那么下面就由小編和大家講一講數據遷移平臺的特點(diǎn)有哪些。
??一、直接映射
??原來(lái)是什么就是什么,原封不動(dòng)照搬過(guò)來(lái),對這樣的規則,如果數據源字段和目標字段長(cháng)度或精度不符,需要特別注意看是否真的可以直接映射還是需要做一些簡(jiǎn)單運算。
??二、字段運算
??數據源的一個(gè)或多個(gè)字段進(jìn)行數學(xué)運算得到的目標字段,這種規則一般對數值型字段而言。
??三、參照轉換
??在轉換中通常要用數據源的一個(gè)或多個(gè)字段作為Key,去一個(gè)關(guān)聯(lián)數組中去搜索特定值,而且應該只能得到唯一值。這個(gè)關(guān)聯(lián)數組使用Hash算法實(shí)現是比較合適也是最常見(jiàn)的,在整個(gè)ETL開(kāi)始之前,它就裝入內存,對性能提高的幫助非常大。
??四、字符串處理
??從數據源某個(gè)字符串字段中經(jīng)??梢垣@取特定信息,例如身份證號。而且,經(jīng)常會(huì )有數值型值以字符串形式體現。對字符串的操作通常有類(lèi)型轉換、字符串截取等。但是由于字符類(lèi)型字段的隨意性也造成了臟數據的隱患,所以在處理這種規則的時(shí)候,一定要加上異常處理。
??五、空值判斷
??對于空值的處理是數據倉庫中一個(gè)常見(jiàn)問(wèn)題,是將它作為臟數據還是作為特定一種維成員?這恐怕還要看應用的情況,也是需要進(jìn)一步探求的。但是無(wú)論怎樣,對于可能有NULL值的字段,不要采用“直接映射”的規則類(lèi)型,必須對空值進(jìn)行判斷,我們的建議是將它轉換成特定的值。
??六、日期轉換
??在數據倉庫中日期值一般都會(huì )有特定的,不同于日期類(lèi)型值的表示方法,例如使用8位整型20040801表示日期。而在數據源中,這種字段基本都是日期類(lèi)型的,所以對于這樣的規則,需要一些共通函數來(lái)處理將日期轉換為8位日期值、6位月份值等。
??七、日期運算
??基于日期,我們通常會(huì )計算日差、月差、時(shí)長(cháng)等。一般提供的日期運算函數都是基于日期型的,而在數據倉庫中采用特定類(lèi)型來(lái)表示日期的話(huà),必須有一套自己的日期運算函數集。
??八、聚集運算
??對于事實(shí)表中的度量字段,他們通常是通過(guò)數據源一個(gè)或多個(gè)字段運用聚集函數得來(lái)的,這些聚集函數為SQL標準中,包括sum,count,avg,min,max。
??九、既定取值
??這種規則和以上各種類(lèi)型規則的差別就在于它不依賴(lài)于數據源字段,對目標字段取一個(gè)固定的或是依賴(lài)系統的值。
??通俗地講,數據遷移 是一種可以把大量不經(jīng)常訪(fǎng)問(wèn)的數據存放在帶庫、盤(pán)庫等離線(xiàn)介質(zhì)上,只在盤(pán)陣上保存少量訪(fǎng)問(wèn)頻率高的數據的技術(shù)。當那些磁帶等介質(zhì)上數據被訪(fǎng)問(wèn)時(shí),系統自動(dòng) 的把這些數據回遷到盤(pán)陣中;同樣,盤(pán)陣中很久未訪(fǎng)問(wèn)的數據被自動(dòng)遷移到磁帶介質(zhì)上,從而大大降低投入和管理成本。小伙伴們要想獲得更多數據遷移平臺的內容,請關(guān)注特網(wǎng)。