日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢(xún)
選擇下列產(chǎn)品馬上在線(xiàn)溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案
馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

一、馬蜂窩數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

成都創(chuàng)新互聯(lián)公司專(zhuān)注于拉薩網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。 熱誠(chéng)為您提供拉薩營(yíng)銷(xiāo)型網(wǎng)站建設(shè),拉薩網(wǎng)站制作、拉薩網(wǎng)頁(yè)設(shè)計(jì)、拉薩網(wǎng)站官網(wǎng)定制、成都小程序開(kāi)發(fā)服務(wù),打造拉薩網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供拉薩網(wǎng)站排名全網(wǎng)營(yíng)銷(xiāo)落地服務(wù)。

最近幾年,數(shù)據(jù)中臺(tái)概念的熱度一直不減。2018 年起,馬蜂窩也開(kāi)始了自己的數(shù)據(jù)中臺(tái)探索之路。

數(shù)據(jù)中臺(tái)到底是什么?要不要建?和數(shù)據(jù)倉(cāng)庫(kù)有什么本質(zhì)的區(qū)別?相信很多企業(yè)都在關(guān)注這些問(wèn)題。

我認(rèn)為數(shù)據(jù)中臺(tái)的概念非常接近傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)+大數(shù)據(jù)平臺(tái)的結(jié)合體。它是在企業(yè)的數(shù)據(jù)建設(shè)經(jīng)歷了數(shù)據(jù)中心、數(shù)據(jù)倉(cāng)庫(kù)等積累之后,借助平臺(tái)化的思路,將數(shù)據(jù)更好地進(jìn)行整合與統(tǒng)一。

所以,數(shù)據(jù)中臺(tái)更多的是體現(xiàn)一種管理思路和架構(gòu)組織上的變革。在這樣的思想下,我們結(jié)合自身業(yè)務(wù)特點(diǎn)建設(shè)了馬蜂窩的數(shù)據(jù)中臺(tái),核心架構(gòu)如下:

在中臺(tái)建設(shè)之前,馬蜂窩已經(jīng)建立了自己的大數(shù)據(jù)平臺(tái),并積累了一些通用、組件化的工具,這些可以支撐數(shù)據(jù)中臺(tái)的快速搭建。作為中臺(tái)的另一大核心部分,馬蜂窩數(shù)據(jù)倉(cāng)庫(kù)主要承擔(dān)數(shù)據(jù)統(tǒng)一化建設(shè)的工作,包括統(tǒng)一數(shù)據(jù)模型,統(tǒng)一指標(biāo)體系等。下面介紹馬蜂窩在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)方面的具體實(shí)踐。

二、數(shù)據(jù)倉(cāng)庫(kù)核心架構(gòu)

馬蜂窩數(shù)據(jù)倉(cāng)庫(kù)遵循標(biāo)準(zhǔn)的三層架構(gòu),對(duì)數(shù)據(jù)分層的定位主要采取維度模型設(shè)計(jì),不會(huì)對(duì)數(shù)據(jù)進(jìn)行抽象打散處理,更多注重業(yè)務(wù)過(guò)程數(shù)據(jù)整合?,F(xiàn)有數(shù)倉(cāng)主要以離線(xiàn)為主,整體架構(gòu)如下:

如圖所示,共分為 3 層:業(yè)務(wù)數(shù)據(jù)層、公共數(shù)據(jù)層與應(yīng)用數(shù)據(jù)層,每層定位、目標(biāo)以及建設(shè)原則各不相同。

三、數(shù)據(jù)模型設(shè)計(jì)

3.1 方法選擇

數(shù)據(jù)模型是對(duì)現(xiàn)實(shí)世界數(shù)據(jù)特征的抽象,數(shù)據(jù)模型的設(shè)計(jì)方法就是對(duì)數(shù)據(jù)進(jìn)行歸納和概括的方法。目前業(yè)界主要的模型設(shè)計(jì)方法論有兩種,一是數(shù)據(jù)倉(cāng)庫(kù)之父 Bill Inmon 提出的范式建模方法,又叫 ER 建模,主張站在企業(yè)角度自上而下進(jìn)行數(shù)據(jù)模型構(gòu)建;二是 Ralph Kimball 大師倡導(dǎo)的維度建模方法,主張從業(yè)務(wù)需求出發(fā)自下而上構(gòu)建數(shù)據(jù)模型。

大數(shù)據(jù)環(huán)境下,業(yè)務(wù)系統(tǒng)數(shù)據(jù)體系龐雜,數(shù)據(jù)結(jié)構(gòu)多樣、變更頻繁,并且需要快速響應(yīng)各種復(fù)雜的業(yè)務(wù)需求,以上兩種傳統(tǒng)的理論都已無(wú)法滿(mǎn)足互聯(lián)網(wǎng)數(shù)倉(cāng)需求。

在此背景下,馬蜂窩數(shù)據(jù)倉(cāng)庫(kù)采取了「以需求驅(qū)動(dòng)為主、數(shù)據(jù)驅(qū)動(dòng)為輔」的混合模型設(shè)計(jì)方式,來(lái)根據(jù)不同的數(shù)據(jù)層次選擇模型。

3.2 設(shè)計(jì)流程

馬蜂窩數(shù)倉(cāng)模型設(shè)計(jì)的整體流程涉及需求調(diào)研、模型設(shè)計(jì)、開(kāi)發(fā)測(cè)試、模型上線(xiàn)四個(gè)主要環(huán)節(jié),且規(guī)范設(shè)計(jì)了每個(gè)階段的輸出與輸入文檔。

3.3 主題分類(lèi)

基于對(duì)目前各個(gè)部門(mén)和業(yè)務(wù)系統(tǒng)的梳理,馬蜂窩數(shù)據(jù)倉(cāng)庫(kù)共設(shè)計(jì)了 4 個(gè)大數(shù)據(jù)域(交易、流量、內(nèi)容、參與人),細(xì)分為 11 個(gè)主題:

以馬蜂窩訂單交易模型的建設(shè)為例,基于業(yè)務(wù)生產(chǎn)總線(xiàn)的設(shè)計(jì)是常見(jiàn)的模式,即首先調(diào)研訂單交易的完整過(guò)程,定位過(guò)程中的關(guān)鍵節(jié)點(diǎn),確認(rèn)各節(jié)點(diǎn)上發(fā)生的核心事實(shí)信息。模型是數(shù)據(jù)的載體,我們要做的就是通過(guò)模型(或者說(shuō)模型體系)歸納生產(chǎn)總線(xiàn)中各個(gè)節(jié)點(diǎn)發(fā)生的事實(shí)信息。

訂單生產(chǎn)總線(xiàn):

如上圖所示,我們需要提煉各節(jié)點(diǎn)的核心信息,為了避免遺漏關(guān)鍵信息,一般情況下抽象認(rèn)為節(jié)點(diǎn)的參與人、發(fā)生時(shí)間、發(fā)生事件、發(fā)生協(xié)議屬于節(jié)點(diǎn)的核心信息,需要重點(diǎn)獲取。以下單節(jié)點(diǎn)為例,參與人包括下單用戶(hù)、服務(wù)商家、平臺(tái)運(yùn)營(yíng)人員等;發(fā)生時(shí)間包括用戶(hù)的下單時(shí)間、商家的確認(rèn)時(shí)間等;發(fā)生的事件即用戶(hù)購(gòu)買(mǎi)了商品,需要記錄圍繞這一事件產(chǎn)生的相關(guān)信息;發(fā)生協(xié)議即產(chǎn)生的訂單,訂單金額、約定內(nèi)容等都是我們需要記錄的協(xié)議信息。

在這樣的思路下,總線(xiàn)架構(gòu)可以在模型中不斷添加各個(gè)節(jié)點(diǎn)的核心信息,使模型支撐的應(yīng)用范圍逐步擴(kuò)展、趨于完善。因此,對(duì)業(yè)務(wù)流程的理解程度將直接影響產(chǎn)出模型的質(zhì)量。

鑒于上述情況,在模型實(shí)現(xiàn)過(guò)程中,我們不能把各節(jié)點(diǎn)不同粒度的數(shù)據(jù)信息都堆砌在一起,那樣會(huì)產(chǎn)生大量的冗余信息,也會(huì)使模型本身的定位不清晰,影響使用。

因此,需要輸出不同粒度的模型來(lái)滿(mǎn)足各類(lèi)應(yīng)用需求。例如既會(huì)存在訂單粒度的數(shù)據(jù)模型,也會(huì)存在分析各個(gè)訂單在不同時(shí)間節(jié)點(diǎn)狀態(tài)信息的數(shù)據(jù)模型。

基于維度建模的思路,在模型整合生產(chǎn)總線(xiàn)各節(jié)點(diǎn)核心信息之后,會(huì)根據(jù)這些節(jié)點(diǎn)信息進(jìn)一步擴(kuò)展常用的分析維度,以減少應(yīng)用層面頻繁關(guān)聯(lián)相關(guān)分析維度帶來(lái)的資源消耗,模型會(huì)反范式冗余相關(guān)維度信息,以獲取應(yīng)用層的使用便捷。最終建立一個(gè)整合旅游、交通、酒店等各業(yè)務(wù)線(xiàn)與各業(yè)務(wù)節(jié)點(diǎn)信息的馬蜂窩全流程訂單模型。

四、數(shù)據(jù)倉(cāng)庫(kù)工具鏈建設(shè)

為提升數(shù)據(jù)生產(chǎn)力,馬蜂窩數(shù)據(jù)倉(cāng)庫(kù)建立了一套工具鏈,來(lái)實(shí)現(xiàn)采集、研發(fā)、管理流程的自動(dòng)化。現(xiàn)階段比較重要的有以下三大工具:

1. 數(shù)據(jù)同步工具

同步工具主要解決兩個(gè)問(wèn)題:

  • 從源系統(tǒng)同步數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)
  • 將數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)同步至其他環(huán)境

下面重點(diǎn)介紹從源系統(tǒng)同步數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)。

馬蜂窩的數(shù)據(jù)同步設(shè)計(jì)支撐靈活的數(shù)據(jù)接入方式,可以選擇抽取方式以及加工方式。抽取方式主要包括增量抽取或者全量抽取,加工方式面向數(shù)據(jù)的存儲(chǔ)方式,是需要對(duì)數(shù)據(jù)進(jìn)行拉鏈?zhǔn)奖4?,或者以流水日志的方式進(jìn)行存儲(chǔ)。

接入時(shí),只需要填寫(xiě)數(shù)據(jù)表信息配置以及具體的字段配置信息,數(shù)據(jù)就可以自動(dòng)接入到數(shù)據(jù)倉(cāng)庫(kù),形成數(shù)倉(cāng)的 ODS 層數(shù)據(jù)模型,如下:

2. 任務(wù)調(diào)度平臺(tái)

我們使用 Airflow 配合自研的任務(wù)調(diào)度系統(tǒng),不僅能支持常規(guī)的任務(wù)調(diào)度,還可以支持任務(wù)調(diào)度系統(tǒng)各類(lèi)數(shù)據(jù)重跑,歷史補(bǔ)數(shù)等需求。

別小看數(shù)據(jù)重跑、歷史補(bǔ)數(shù),這兩項(xiàng)功能是在選擇調(diào)度工具中重要的參考項(xiàng)。做數(shù)據(jù)的人都清楚,在實(shí)際數(shù)據(jù)處理過(guò)程中會(huì)面臨諸多的數(shù)據(jù)口徑變化、數(shù)據(jù)異常等,需要進(jìn)行數(shù)據(jù)重跑、刷新、補(bǔ)數(shù)等操作。

我們?cè)O(shè)計(jì)的「一鍵重跑」功能,可以將相關(guān)任務(wù)依賴(lài)的后置任務(wù)全部帶出,并支持選擇性地刪除或虛擬執(zhí)行任意節(jié)點(diǎn)的任務(wù):

  • 如果選擇刪除,這該任務(wù)之后所依賴(lài)的任務(wù)均不執(zhí)行
  • 如果選擇虛擬執(zhí)行,則會(huì)忽略(空跑)掉該任務(wù),后置的所有依賴(lài)任務(wù)還是會(huì)正常執(zhí)行。

如下是基于某一個(gè)任務(wù)重跑下游所有任務(wù)所列出的關(guān)系圖,選中具體的執(zhí)行節(jié)點(diǎn),就可以執(zhí)行忽略或者刪除。

3. 元數(shù)據(jù)管理工具

元數(shù)據(jù)范疇包括技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)、管理元數(shù)據(jù),在概念上不做過(guò)多闡述了。元數(shù)據(jù)管理在數(shù)據(jù)建設(shè)起著舉足輕重的作用,這部分在數(shù)倉(cāng)應(yīng)用中主要有 2 個(gè)點(diǎn):

(1)血緣管理

  • 血緣管理可以追溯數(shù)據(jù)加工整體鏈路,解析表的來(lái)龍去脈,用于支撐各類(lèi)場(chǎng)景,如:
  • 支持上游變更對(duì)下游影響的分析與調(diào)整
  • 監(jiān)控各節(jié)點(diǎn)、各鏈路任務(wù)運(yùn)行成本,效率
  • 監(jiān)控?cái)?shù)據(jù)模型的依賴(lài)數(shù)量,確認(rèn)哪些是重點(diǎn)模型

如下是某一個(gè)數(shù)據(jù)模型中的血緣圖,上下游以不同顏色進(jìn)行呈現(xiàn):

(2)數(shù)據(jù)知識(shí)管理

通過(guò)對(duì)技術(shù)、業(yè)務(wù)元數(shù)據(jù)進(jìn)行清晰、詳盡地描述,形成數(shù)據(jù)知識(shí),給數(shù)據(jù)人員提供更好的使用向?qū)?。我們的?shù)據(jù)知識(shí)主要包括實(shí)體說(shuō)明與屬性說(shuō)明,具體如下:

五、總結(jié)

企業(yè)的數(shù)據(jù)建設(shè)需要經(jīng)歷幾個(gè)大的步驟:

  • 第一步,業(yè)務(wù)數(shù)據(jù)化:顧名思義,一切業(yè)務(wù)都能通過(guò)數(shù)據(jù)反映,主要指的是將傳統(tǒng)線(xiàn)下流程線(xiàn)上化;
  • 第二步,數(shù)據(jù)智能化:光有數(shù)據(jù)還不行,還需要足夠的智能,如何通過(guò)智能化的數(shù)據(jù)支撐運(yùn)營(yíng)、營(yíng)銷(xiāo)及各類(lèi)業(yè)務(wù),這是數(shù)據(jù)中臺(tái)當(dāng)前解決的主要問(wèn)題;
  • 第三步,數(shù)據(jù)業(yè)務(wù)化:也就是我們常說(shuō)的數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù),數(shù)據(jù)不能只是數(shù)據(jù),數(shù)據(jù)價(jià)值最大化在于可以驅(qū)動(dòng)新的業(yè)務(wù)創(chuàng)新,帶動(dòng)企業(yè)增長(zhǎng)。

目前大部企業(yè)目前都停留在第二個(gè)階段,因?yàn)檫@一步需要足夠夯實(shí),才能為第三步打好基礎(chǔ),這也是為什么各大企業(yè)要投入很大成本到大數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉(cāng)庫(kù)乃至數(shù)據(jù)中臺(tái)的建設(shè)中。

馬蜂窩數(shù)據(jù)中臺(tái)的建設(shè)才剛剛起步。我們認(rèn)為,理想的數(shù)據(jù)中臺(tái)需要具備數(shù)據(jù)標(biāo)準(zhǔn)化、工具組件化、組織清晰化這三個(gè)核心前提。為了向這一目標(biāo)邁進(jìn),我們將建立統(tǒng)一、標(biāo)準(zhǔn)化的數(shù)據(jù)倉(cāng)庫(kù)作為當(dāng)下數(shù)據(jù)中臺(tái)的重點(diǎn)工作之一。

數(shù)據(jù)來(lái)源于業(yè)務(wù),最終也將應(yīng)用于業(yè)務(wù)。只有對(duì)數(shù)據(jù)足夠重視,與業(yè)務(wù)充分銜接,才能實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最大化。在馬蜂窩,從管理層,到公司研發(fā)、產(chǎn)品、運(yùn)營(yíng)、銷(xiāo)售等各角色,對(duì)數(shù)據(jù)非常重視,數(shù)據(jù)產(chǎn)品的使用人數(shù)占公司員工比例高達(dá) 75%。

大量用戶(hù)的使用,驅(qū)動(dòng)著我們?cè)跀?shù)據(jù)中臺(tái)建設(shè)的路上不斷前進(jìn)。如何將新興技術(shù)能力應(yīng)用到數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),如何以有限的成本高效解決企業(yè)在數(shù)據(jù)建設(shè)中面臨的問(wèn)題,將是馬蜂窩數(shù)倉(cāng)建設(shè)一直的思考。


標(biāo)題名稱(chēng):馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)
本文來(lái)源:http://www.5511xx.com/article/djgpchh.html