日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
從數(shù)據(jù)到洞察數(shù)據(jù)湖時(shí)代到來

從數(shù)據(jù)到洞察 數(shù)據(jù)湖時(shí)代到來

原創(chuàng)
作者:鳶瑋 2020-03-25 09:39:03

云計(jì)算

大數(shù)據(jù)

數(shù)據(jù)湖 我們經(jīng)歷過數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖等不同概念時(shí)期,應(yīng)對了不同種類、量級(jí)、形式的數(shù)據(jù)。隨著人工智能的快速發(fā)展,以及產(chǎn)業(yè)互聯(lián)網(wǎng)的轉(zhuǎn)型,處理數(shù)據(jù)的技術(shù)也在升級(jí),再加上云計(jì)算的計(jì)算能力,企業(yè)可以快速獲取洞察,實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新。

【51CTO.com原創(chuàng)稿件】數(shù)據(jù),無疑是企業(yè)最有價(jià)值的資產(chǎn)。數(shù)據(jù)的價(jià)值在于從數(shù)據(jù)本身提出真正有用的信息,將信息變成知識(shí),從而指導(dǎo)我們行動(dòng)。從數(shù)據(jù)到洞察,從而幫助企業(yè)進(jìn)行業(yè)務(wù)運(yùn)營,創(chuàng)造更大的價(jià)值。

我們經(jīng)歷過數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖等不同概念時(shí)期,應(yīng)對了不同種類、量級(jí)、形式的數(shù)據(jù)。隨著人工智能的快速發(fā)展,以及產(chǎn)業(yè)互聯(lián)網(wǎng)的轉(zhuǎn)型,處理數(shù)據(jù)的技術(shù)也在升級(jí),再加上云計(jì)算的計(jì)算能力,企業(yè)可以快速獲取洞察,實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新。

數(shù)據(jù)復(fù)雜性增加

過去,數(shù)據(jù)只有像數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師才會(huì)使用,而如今,企業(yè)中的每個(gè)人都可以是數(shù)據(jù)的使用者,可以是企業(yè)的管理人員,也可以是營銷、財(cái)務(wù)、業(yè)務(wù)人員,還可以是產(chǎn)品經(jīng)理、開發(fā)者、運(yùn)營人員等。而數(shù)據(jù)分析的應(yīng)用場景也關(guān)聯(lián)到社會(huì)的方方面面,例如市場客戶服務(wù)方面,消費(fèi)者的細(xì)分、客戶的忠誠度、客戶的流失度等,金融的風(fēng)險(xiǎn)管控和評(píng)估,市場促銷活動(dòng)和需求分析,醫(yī)療領(lǐng)域的疾病傳播、藥物發(fā)現(xiàn)等,都會(huì)涉及到數(shù)據(jù)分析。

然而,隨著社交網(wǎng)絡(luò)的興起,電商外賣、娛樂視頻、社交媒體、交友戀愛等各種新型互聯(lián)網(wǎng)應(yīng)用的普及,致使數(shù)據(jù)的復(fù)雜性也在增加。而企業(yè)的數(shù)據(jù)分析也要求更加具有即時(shí)性以及預(yù)測性,從而為業(yè)務(wù)決策帶來指導(dǎo)意義。

過去數(shù)據(jù)都是從業(yè)務(wù)系統(tǒng)中獲取,如今,移動(dòng)設(shè)備、可穿戴設(shè)備、物聯(lián)網(wǎng)設(shè)備等不同設(shè)備的互聯(lián),數(shù)據(jù)的獲取端也變得更加豐富。而用戶數(shù)量和業(yè)務(wù)請求量的增長,也導(dǎo)致了數(shù)據(jù)以指數(shù)級(jí)速度在增長。數(shù)據(jù)的獲取來源多樣、數(shù)據(jù)量增加、數(shù)據(jù)格式多元,也給數(shù)據(jù)本身的縮放性、經(jīng)濟(jì)性帶來了挑戰(zhàn),企業(yè)需要速及時(shí)地將數(shù)據(jù)展示出來,并從中進(jìn)行分析獲取價(jià)值。

數(shù)據(jù)湖的出現(xiàn)

對于數(shù)據(jù)的處理,最傳統(tǒng)的方法就是通過數(shù)據(jù)庫來管理,尤其是交易型數(shù)據(jù)庫。過去,企業(yè)的數(shù)據(jù)都來源于像ERP、CRM等各種業(yè)務(wù)系統(tǒng),都是存放在數(shù)據(jù)庫中。后來,各個(gè)業(yè)務(wù)系統(tǒng)應(yīng)用都會(huì)產(chǎn)生并存儲(chǔ)大量的數(shù)據(jù),而這些數(shù)據(jù)并不能被其他系統(tǒng)應(yīng)用所使用,這就產(chǎn)生了數(shù)據(jù)孤島。數(shù)據(jù)倉庫應(yīng)運(yùn)而生。數(shù)據(jù)倉庫是在數(shù)據(jù)庫的基礎(chǔ)之上,將系統(tǒng)應(yīng)用產(chǎn)生的數(shù)據(jù)經(jīng)過一定的分類、提煉、整理后,全部存儲(chǔ)在集中式的數(shù)據(jù)倉庫中,各個(gè)部門根據(jù)自己的需要導(dǎo)出相關(guān)數(shù)據(jù)進(jìn)行使用分析。

數(shù)據(jù)倉庫只能存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),并且需要提前定義好,面對如今大量的非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),以及數(shù)據(jù)分析的時(shí)效性的高要求,數(shù)據(jù)倉庫就顯得“力不從心”。數(shù)據(jù)湖就此誕生。

數(shù)據(jù)湖的概念有很多,AWS首席云計(jì)算企業(yè)戰(zhàn)略顧問張俠博士則認(rèn)為,數(shù)據(jù)湖就是一個(gè)中心數(shù)據(jù)存儲(chǔ)的容器,可以處理結(jié)構(gòu)化、非結(jié)構(gòu)化等各種各樣的數(shù)據(jù),數(shù)據(jù)量級(jí)可以快速縮放,并且進(jìn)行查詢和分析。

張俠舉例說道,過去數(shù)據(jù)匯總后像一條小河,河里的水量是可以預(yù)知的,然后設(shè)計(jì)一個(gè)河道,水來后有閘門可以進(jìn)行處理。但是互聯(lián)網(wǎng)時(shí)代,視頻以及移動(dòng)終端的信息蜂擁而至,我們很難掌握數(shù)據(jù)的性質(zhì),水量大并且來勢洶涌,需要耗費(fèi)大量時(shí)間進(jìn)行處理。于是就需要先將數(shù)據(jù)存放在湖里,然后通過工具進(jìn)行查詢分析。

數(shù)據(jù)湖的兼容與靈活

也許有人會(huì)認(rèn)為,數(shù)據(jù)湖本質(zhì)上沒有技術(shù)創(chuàng)新,只是一個(gè)概念的拼湊,然而,在數(shù)字化轉(zhuǎn)型變革中,數(shù)據(jù)湖真正可以幫助企業(yè)實(shí)現(xiàn)技術(shù)轉(zhuǎn)型,應(yīng)對快速發(fā)展下的數(shù)據(jù)需求。

數(shù)據(jù)湖可以存儲(chǔ)海量、多源的數(shù)據(jù),業(yè)務(wù)系統(tǒng)、智能設(shè)備等產(chǎn)生的數(shù)據(jù)都可以以原始的自然數(shù)據(jù)進(jìn)行存儲(chǔ),同時(shí)支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。此外,結(jié)合云計(jì)算能力,數(shù)據(jù)湖可以快速地縮放存儲(chǔ)海量數(shù)據(jù),并且通過建目錄和數(shù)據(jù)的轉(zhuǎn)移、抽取等工作,將數(shù)據(jù)歸類,然后快速地進(jìn)行各種各樣的分析。

但是,值得注意的是,數(shù)據(jù)湖存儲(chǔ)的是原始的自然數(shù)據(jù),自然有些是無用數(shù)據(jù),并且還占用存儲(chǔ)空間,那么,如何處理無用數(shù)據(jù)以及縮小存儲(chǔ)成本呢?張俠告訴51CTO,如果數(shù)據(jù)進(jìn)來的都是垃圾,很可能后續(xù)的存儲(chǔ)和分析也都是垃圾,因此企業(yè)要盡可能地對原始數(shù)據(jù)進(jìn)行合理的管控、設(shè)計(jì)、把握,從而提高數(shù)據(jù)質(zhì)量,同時(shí)也可以減少原始數(shù)據(jù)量。此外,企業(yè)還可以將冷、熱數(shù)據(jù)分級(jí)處理,通過生命周期管理功能根據(jù)數(shù)據(jù)的量級(jí)和特點(diǎn)性質(zhì)進(jìn)行存儲(chǔ)和處理,從而減少數(shù)據(jù)成本。

張俠指出,由于數(shù)據(jù)湖對所有數(shù)據(jù)都可以兼容,并且保持了靈活性,因此特別適用于數(shù)據(jù)科學(xué)家、數(shù)據(jù)研究人員進(jìn)行探索性、預(yù)測性、研究性的數(shù)據(jù)查詢和分析。

AWS的“數(shù)據(jù)家族”

一般,數(shù)據(jù)湖的搭建分為幾步:首先先將數(shù)據(jù)設(shè)置好并存儲(chǔ),然后將數(shù)據(jù)移動(dòng)加載到不同的地方,清理數(shù)據(jù)后編寫數(shù)據(jù)目錄,配置數(shù)據(jù)安全性與合規(guī)性策略并進(jìn)行存儲(chǔ)管理,在需要分析的時(shí)候通過工具調(diào)取數(shù)據(jù)進(jìn)行分析。為了簡化搭建步驟,AWS提供了AWS Lake Formation,將建立數(shù)據(jù)湖的方法自動(dòng)化,幫助企業(yè)在數(shù)天內(nèi)完成數(shù)據(jù)的建設(shè)工作。張俠透露,AWS Lake Formation會(huì)在今年在中國推出。

除了搭建數(shù)據(jù)湖以外,數(shù)據(jù)的存儲(chǔ)也很重要。在AWS數(shù)據(jù)湖層面,包括了Amazon S3和AWS Glue。Amazon S3可以存儲(chǔ)任何二進(jìn)位為基礎(chǔ)的任何信息,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并且具有11個(gè)9的數(shù)據(jù)持久性,云端三個(gè)可用區(qū)存儲(chǔ)六份,互為備份。在Amazon S3后端是冷存儲(chǔ)Amazon Glacier,如果數(shù)據(jù)不常用,可以存儲(chǔ)在Amazon Glacier,降低存儲(chǔ)費(fèi)用。AWS Glue包括兩大功能,全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載 (ETL) 服務(wù)以及元數(shù)據(jù)目錄,用戶可以更加容易準(zhǔn)備數(shù)據(jù),加載數(shù)據(jù)到數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖,并且用于數(shù)據(jù)分析。AWS Glue服務(wù)已經(jīng)在AWS中國(寧夏)區(qū)域正式上線。

除了數(shù)據(jù)湖相關(guān)的產(chǎn)品,AWS還在數(shù)據(jù)層面提供了更多的功能,包括底層數(shù)據(jù)的遷移和移動(dòng)工具,存儲(chǔ)不同類型數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)層,上層有各種分析工具以及機(jī)器學(xué)習(xí)功能。

最底層是數(shù)據(jù)遷移和移動(dòng)工具,AWS提供 AWS Database Migration Service數(shù)據(jù)庫遷移服務(wù)、AWS Snowball(雪球)可以將數(shù)據(jù)存儲(chǔ)在專用硬盤的裝置中快遞到AWS、AWS Storage Gateway通過數(shù)據(jù)門戶網(wǎng)關(guān)轉(zhuǎn)換數(shù)據(jù),AWS Backup數(shù)據(jù)備份服務(wù)。

數(shù)據(jù)移動(dòng)的上一層是數(shù)據(jù)存儲(chǔ)層,通過各種數(shù)據(jù)庫來存儲(chǔ)各種不同類型的數(shù)據(jù),包括Amazon DynamoDB存儲(chǔ)鍵值和文檔,Amazon RDS托管型關(guān)系數(shù)據(jù)庫,Amazon Aurora云原生數(shù)據(jù)庫,Amazon ElasticCach內(nèi)存式數(shù)據(jù)庫,Amazon Neptune圖形數(shù)據(jù)庫。

在數(shù)據(jù)湖層之上是分析層,AWS提供了Amazon Redshift數(shù)據(jù)倉庫,Amazon EMR大數(shù)據(jù)分析,AWS Glue無服務(wù)器處理,Amazon Athena交互式分析,Amazon Elasticsearch運(yùn)維分析,Amazon Kinesis實(shí)時(shí)分析。

最上層是機(jī)器學(xué)習(xí),包括Amazon QuickSight圖形可視化,Amazon Polly文字轉(zhuǎn)語音功能,Amazon Transcribe語音轉(zhuǎn)文字功能,Amazon SageMaker機(jī)器學(xué)習(xí)工具,幫助用戶將數(shù)據(jù)分析結(jié)果進(jìn)行展現(xiàn)。

AWS期望提供全面、安全、經(jīng)濟(jì)高效、易于構(gòu)建、應(yīng)用廣泛的數(shù)據(jù)相關(guān)的工具和服務(wù),幫助企業(yè)應(yīng)對各種數(shù)據(jù)的需求,快速將數(shù)據(jù)轉(zhuǎn)化成洞察,從而加速業(yè)務(wù)創(chuàng)新。而亞馬遜也是AWS的用戶。亞馬遜曾是Oracle全球數(shù)據(jù)庫最大的用戶,使用了7500個(gè)數(shù)據(jù)庫,數(shù)據(jù)量達(dá)到75PB,然而由于擴(kuò)展困難且昂貴,亞馬遜在去年11月完成了從Oracle數(shù)據(jù)庫遷移至AWS上相關(guān)數(shù)據(jù)庫,數(shù)據(jù)庫成本費(fèi)用減少了60%,數(shù)據(jù)庫的管理費(fèi)用減少了70%。此外,亞馬遜在內(nèi)部建立了數(shù)據(jù)湖名叫Galaxy(銀河),整合亞馬遜所有數(shù)據(jù)進(jìn)行分析,加快了從數(shù)據(jù)匯總挖掘有用信息的速度同時(shí)減少成本。

結(jié)語

數(shù)據(jù)湖的概念從2011年首次提出,如今已經(jīng)走過九年,如今人工智能的興起也成為了數(shù)據(jù)湖快速發(fā)展的最大驅(qū)動(dòng)力。張俠認(rèn)為,在數(shù)據(jù)湖時(shí)代,大數(shù)據(jù)會(huì)變得更加實(shí)時(shí)、更加面向未來,人工智能成為了關(guān)鍵性的因素。人工智能有能力處理大量數(shù)據(jù),使得海量數(shù)據(jù)的價(jià)值有所提高。隨著時(shí)間的推移,數(shù)據(jù)分析和人工智能的很大部分都會(huì)密切結(jié)合。

雖然,數(shù)據(jù)湖在中國的發(fā)展還處于早期階段,但隨著下一代互聯(lián)網(wǎng)、5G、邊緣計(jì)算等技術(shù)的發(fā)展,與之相對應(yīng)的數(shù)據(jù)存儲(chǔ)和分析的道路也會(huì)加速。

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】


新聞標(biāo)題:從數(shù)據(jù)到洞察數(shù)據(jù)湖時(shí)代到來
分享路徑:http://www.5511xx.com/article/dghhspd.html