久久久毛片免费全部播放,久久99精品麻豆国产,极品销魂一区二区三区,国产精品国产三级国产an不卡

深圳熱線

什么是?數(shù)據(jù)倉(cāng)庫(kù) 創(chuàng)建數(shù)據(jù)湖有什么用?

2023-04-06 15:04:55 來(lái)源:匯世網(wǎng)

什么是?數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)倉(cāng)庫(kù)長(zhǎng)期以來(lái)一直是管理大數(shù)據(jù)的標(biāo)準(zhǔn)方法,但是數(shù)據(jù)湖是否更適合組織的需要?其答案是肯定的。

隨著當(dāng)今數(shù)據(jù)的數(shù)量、速度和種類的不斷變化,人們開(kāi)始意識(shí)到,并沒(méi)有一種能夠滿足組織所有數(shù)據(jù)需求的數(shù)據(jù)庫(kù)。與其相反,許多組織已經(jīng)轉(zhuǎn)向?yàn)樘囟ㄓ美蝽?xiàng)目選擇合適的數(shù)據(jù)存儲(chǔ)技術(shù)。數(shù)據(jù)分散存儲(chǔ)在不同數(shù)據(jù)存儲(chǔ)空間中給組織整合數(shù)據(jù)進(jìn)行分析帶來(lái)了挑戰(zhàn)。從歷史上看,唯一可行的解決方案是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),這可以從所有不同的數(shù)據(jù)源攝取數(shù)據(jù),在清理之后并將其合并在一起,最后以定義良好的結(jié)構(gòu)將這些數(shù)據(jù)加載到精煉的數(shù)據(jù)倉(cāng)庫(kù)中。雖然這種方法并沒(méi)有什么問(wèn)題,但是數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的組合才是組織真正需要的解決方案。以下是組織為什么應(yīng)該采用數(shù)據(jù)湖的7個(gè)原因:

創(chuàng)建數(shù)據(jù)湖有什么用

1.為數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建暫存區(qū)

數(shù)據(jù)湖并不需要成為數(shù)據(jù)的最終存儲(chǔ)目的地。由于數(shù)據(jù)不斷流動(dòng)并改變其形式,現(xiàn)代數(shù)據(jù)平臺(tái)應(yīng)該便于數(shù)據(jù)的攝取和發(fā)現(xiàn),同時(shí)又要為分析需求提供完整而嚴(yán)格的結(jié)構(gòu)。常見(jiàn)的一個(gè)模式是數(shù)據(jù)湖充當(dāng)數(shù)據(jù)攝取的不可變層。任何內(nèi)容都不會(huì)從中刪除(可能只會(huì)被新版本覆蓋,或者出于合規(guī)性原因而刪除)。所有被攝取到數(shù)據(jù)平臺(tái)的原始數(shù)據(jù)都可以在數(shù)據(jù)湖中找到。這意味著組織仍然可以有ELT/ETL作業(yè)來(lái)轉(zhuǎn)換和清理數(shù)據(jù),然后將其接收到數(shù)據(jù)倉(cāng)庫(kù)中,同時(shí)嚴(yán)格遵循Kimbol、Inmon或Data Vault方法。

組織無(wú)需在數(shù)據(jù)湖或數(shù)據(jù)倉(cāng)庫(kù)之間進(jìn)行選擇,可以同時(shí)使用數(shù)據(jù)湖和不可更改的暫存區(qū),以及將數(shù)據(jù)倉(cāng)庫(kù)用于商業(yè)智能的分析報(bào)告。人工智能廠商Databricks公司創(chuàng)造了“湖倉(cāng)一體”(Data Lakehouse)這一術(shù)語(yǔ),也就是在一個(gè)解決方案中將數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)點(diǎn)結(jié)合在一起。同樣,組織采用Snowflake之類的平臺(tái)將諸如S3之類的云存儲(chǔ)桶作為外部存儲(chǔ),從而有效地利用數(shù)據(jù)湖作為暫存區(qū)域。

最后,組織需要確定為其用例是選擇采用湖倉(cāng)一體,還是數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的組合。

研究發(fā)現(xiàn),越來(lái)越多的數(shù)據(jù)團(tuán)隊(duì)不再只是采用數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖,他們希望采用湖倉(cāng)一體,這有著充分的理由。隨著更多用例的出現(xiàn)和涉及更多利益相關(guān)者,單一的解決方案難以滿足所有需求。

2.由于暫存區(qū)不可變,因此可以審核所有數(shù)據(jù)的日志,這些數(shù)據(jù)都被攝入到組織的數(shù)據(jù)生態(tài)系統(tǒng)中

審計(jì)跟蹤對(duì)于滿足合規(guī)性要求通常很重要。數(shù)據(jù)湖使收集元數(shù)據(jù)變得更容易,它可以了解用戶何時(shí)和從何處攝取數(shù)據(jù)。這不僅有助于合規(guī)性,而且有助于跟蹤數(shù)據(jù)所有權(quán)。

3.增加洞察價(jià)值的時(shí)間和數(shù)據(jù)價(jià)值

通過(guò)提供不可變的所有數(shù)據(jù)層,組織在獲取數(shù)據(jù)后立即向消費(fèi)者提供數(shù)據(jù)。通過(guò)提供原始數(shù)據(jù),組織將啟用探索性分析,而在不同的數(shù)據(jù)團(tuán)隊(duì)以不同的方式使用相同的數(shù)據(jù)集時(shí),這可能很難完成。通常情況下,不同的數(shù)據(jù)使用者可能需要基于相同原始數(shù)據(jù)的不同轉(zhuǎn)換。數(shù)據(jù)湖允許組織深入研究各種類型和形式的數(shù)據(jù),并決定哪些數(shù)據(jù)可能為組織產(chǎn)生見(jiàn)解。

4.用于實(shí)時(shí)和批處理分析的單一數(shù)據(jù)平臺(tái)

將實(shí)時(shí)數(shù)據(jù)攝取到數(shù)據(jù)倉(cāng)庫(kù)中仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。即使市場(chǎng)上推出嘗試解決這一問(wèn)題的工具,但在利用數(shù)據(jù)湖作為提取所有數(shù)據(jù)的不可變層時(shí),也可以輕松解決這一問(wèn)題。例如,許多解決方案(例如Kinesis Data Streams或Apache Kafka)允許組織將S3存儲(chǔ)桶作為數(shù)據(jù)的接收器。

5.成本

隨著社交媒體、傳感器、日志和Web分析數(shù)據(jù)量的不斷增長(zhǎng),將所有數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的成本可能會(huì)變得越來(lái)越高昂。許多傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)將存儲(chǔ)和處理緊密地結(jié)合在一起,使得數(shù)據(jù)倉(cāng)庫(kù)的擴(kuò)展變得更加困難。

數(shù)據(jù)湖彼此獨(dú)立地?cái)U(kuò)展存儲(chǔ)和處理(查詢和API請(qǐng)求以檢索數(shù)據(jù))的規(guī)模,而一些云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)也支持這種范例。

6.便利性

通常情況下,采用數(shù)據(jù)倉(cāng)庫(kù)解決方案要求組織管理基礎(chǔ)計(jì)算集群。云計(jì)算供應(yīng)商開(kāi)始意識(shí)到這樣做的困難,并建立了完全托管或完全無(wú)服務(wù)器的數(shù)據(jù)存儲(chǔ)。

例如,將S3存儲(chǔ)桶與AWS Glue和Athena結(jié)合使用時(shí),組織的平臺(tái)仍然不需要采用服務(wù)器,并只需為其使用的內(nèi)容支付費(fèi)用。組織可以利用這個(gè)單一數(shù)據(jù)平臺(tái)執(zhí)行以下操作:

檢索關(guān)系和非關(guān)系數(shù)據(jù)

查詢歷史和實(shí)時(shí)數(shù)據(jù)

檢查組織機(jī)器學(xué)習(xí)訓(xùn)練工作和服務(wù)機(jī)器學(xué)習(xí)模型

攝取數(shù)據(jù)之后直接在應(yīng)用轉(zhuǎn)換之前查詢數(shù)據(jù)

通過(guò)外部表合并來(lái)自數(shù)據(jù)湖和DWH表的數(shù)據(jù)(幾乎在所有DWH解決方案中都可用)

與其他服務(wù)和分布式計(jì)算框架(例如Dask或Spark)集成

關(guān)于數(shù)據(jù)集成,在AWS云平臺(tái)上,組織可以利用:

數(shù)據(jù)湖形成的通道管理

awswrangler(可在AWS上稱為Pandas的Python庫(kù))

Quicksight(AWS BI工具)

Delta lake(由Databricks創(chuàng)建的開(kāi)源平臺(tái))

lakeFS(數(shù)據(jù)的版本控制)

Upsolver(使用Kappa架構(gòu),例如數(shù)據(jù)流和批處理的數(shù)據(jù)攝取)

AWS Database Migration Service可以使組織將數(shù)據(jù)從RDS數(shù)據(jù)庫(kù)表(甚至整個(gè)架構(gòu))以增量方式導(dǎo)出到S3存儲(chǔ)桶文件中,這些文件可以使用AWS Glue使用Athena進(jìn)行查詢。

7.經(jīng)得起未來(lái)的考驗(yàn)

根據(jù)調(diào)查和統(tǒng)計(jì),通常存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)中至少有三分之一幾乎從未使用過(guò)。組織需要攝取、清理和維護(hù)這樣的數(shù)據(jù)源,以便以后可能需要它們。這意味著數(shù)據(jù)工程師將要花費(fèi)大量時(shí)間和精力來(lái)構(gòu)建和維護(hù)可能還沒(méi)有明確業(yè)務(wù)需求的數(shù)據(jù)。

ELT范例使組織可以通過(guò)只針對(duì)實(shí)際需要的用例構(gòu)建數(shù)據(jù)管道來(lái)節(jié)省時(shí)間,同時(shí)將所有數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)湖中以備將來(lái)可能的用例使用。如果在將來(lái)出現(xiàn)特定的業(yè)務(wù)問(wèn)題,則可能會(huì)找到答案,因?yàn)閿?shù)據(jù)已經(jīng)存在。但是組織不必花時(shí)間清理和維護(hù)數(shù)據(jù)管道,以解決尚無(wú)明確業(yè)務(wù)用例的問(wèn)題。

數(shù)據(jù)湖和云計(jì)算數(shù)據(jù)平臺(tái)能夠經(jīng)得起未來(lái)考驗(yàn)的另一個(gè)原因是,如果組織的業(yè)務(wù)增長(zhǎng)迅速,則其平臺(tái)將具備快速擴(kuò)展的能力。組織不需要采用成本高昂的遷移方案即可轉(zhuǎn)換到更大或更小的數(shù)據(jù)庫(kù)來(lái)適應(yīng)其規(guī)模的增減。

無(wú)論組織選擇哪一種方法,組織的云數(shù)據(jù)平臺(tái)都應(yīng)允許其無(wú)限制地增長(zhǎng)數(shù)據(jù)資產(chǎn)。

關(guān)鍵詞: 數(shù)據(jù)倉(cāng)庫(kù)是什么 為什么要?jiǎng)?chuàng)建數(shù)據(jù)湖 什么是?數(shù)據(jù)倉(cāng)庫(kù) 創(chuàng)建數(shù)據(jù)湖有什么用

熱門推薦

久久久毛片免费全部播放,久久99精品麻豆国产,极品销魂一区二区三区,国产精品国产三级国产an不卡
<s id="yccai"><kbd id="yccai"></kbd></s>
<s id="yccai"><kbd id="yccai"></kbd></s>
  • <input id="yccai"><del id="yccai"></del></input>
  • <input id="yccai"></input>
  • 主站蜘蛛池模板: 成人免费在线视频网站| 亚洲女人被黑人巨大进入al| 91国产中文字幕| 91精品国产91久久久久福利| 欧美一区二区影院| 国产精品久久久久久搜索 | 国产一区二区三区视频在线观看| 亚洲免费小视频| 日韩在线视频线视频免费网站| 不卡毛片在线看| 欧美精品videossex88| 国产91精品黑色丝袜高跟鞋| 国产精品成人国产乱一区| 亚洲成avwww人| 久久精品国产精品亚洲| 久久久久久久91| 国产精品久久久久久久久久东京| 91久久精品国产91性色| 国产午夜精品全部视频在线播放| 久久精品国产69国产精品亚洲| 欧美电影免费在线观看| 国产精品久久77777| 精品视频久久久久久久| 美女久久久久久久| 欧美在线精品免播放器视频| 91老司机在线| 欧美成人激情图片网| 8090成年在线看片午夜| 亚洲xxx自由成熟| 久久精品最新地址| 欧洲亚洲免费在线| 亚洲视频在线观看网站| 欧美高清理论片| 日韩精品久久久久| 欧美黑人xxxⅹ高潮交| 成人有码在线播放| 九色成人免费视频| 91在线观看免费观看| 欧美精品一区二区免费| 国产精品自拍小视频| 久久精品国产欧美亚洲人人爽|