日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關咨詢
選擇下列產(chǎn)品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
解構“存算分離”

存算分離,作為一種架構潮流,在架構設計和項目規(guī)劃的時候經(jīng)常被提及?,F(xiàn)如今,數(shù)字化轉型已經(jīng)從選擇題變成了必修課,企業(yè)IT架構的重塑也勢在必行,所以我們有必要把這些所謂潮流的東西解構清楚。翻閱了不少資料,也參考了網(wǎng)上一些文章,我們簡單來分析一下。

網(wǎng)站建設哪家好,找成都創(chuàng)新互聯(lián)!專注于網(wǎng)頁設計、網(wǎng)站建設、微信開發(fā)、小程序開發(fā)、集團企業(yè)網(wǎng)站建設等服務項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了察隅免費建站歡迎大家使用!

一、計算與存儲為何要分離

在計算機中,我們所說的計算其實指的是由CPU和內存組成的算力單元,存儲指的是持久化的數(shù)據(jù)存放單元。從單體計算機的角度來講,計算存儲分離其實并不現(xiàn)實。我試想一下,如果將計算機的計算和存儲單元分開,指令都需要通過網(wǎng)絡來傳輸,以目前網(wǎng)絡的速度是很難與CPU計算速度相匹配的,所以從單體計算機的角度來講,計算與存儲分離是一個偽概念。

不管我們承認與否,其實是網(wǎng)絡一直在制約基礎IT架構的演進和發(fā)展,過去由于網(wǎng)絡帶寬的限制,我們習慣性的把計算和存儲偶合在一起,以減少網(wǎng)絡傳輸?shù)膲毫?,比較典型的就是MapReduce和Hadoop,就是用本地IO代替網(wǎng)絡傳輸,是計算和存儲耦合在一起的典型場景。但是隨著網(wǎng)絡技術的發(fā)展,網(wǎng)絡帶寬和網(wǎng)絡質量已經(jīng)不再是瓶頸,磁盤IO反而沒有明顯的增長,計算和存儲耦合在架構上的缺點也逐漸暴露出來:

1、耦合帶來資源浪費:作為底層的資源平臺,基礎IT環(huán)境的資源總是有限的,站在業(yè)務的角度是計算先達到瓶頸,還是存儲先達到瓶頸,他們的時間點是不一樣的。由于計算和存儲的耦合設計,無論擴計算還是擴存儲,都在會造成資源的浪費;

2、服務器款型繁雜,維護難度大:從運維的角度來講,降低服務器的款型是降低運維難度和工作量的有效手段。但是由于計算和存儲的耦合設計,隨著業(yè)務復雜度的增加和新業(yè)務線上的加快,對服務器資源配比的要求也會隨之增加,維護一個繁雜的服務器款型表可以是一件好玩的事情;

3、耦合造成擴容不便:計算和存儲耦合在一起還有另外一個壞處,那就是每次擴弄都需要考慮數(shù)據(jù)的遷移,給本來簡單的擴容工作帶來很多風險和不可控因素。

從上面的分析來看,架構不是一成不變的,會根據(jù)技術的發(fā)展和業(yè)務的發(fā)展進行演進和升級,計算和存儲的分離設計,就是在這樣一個背景下進入大家視野的。

二、計算與存儲分離的應用場景

計算和存儲分離主要應用在哪些方面呢,主要是數(shù)據(jù)庫和消息隊列:

1、數(shù)據(jù)庫

以傳統(tǒng)的主從結構的數(shù)據(jù)庫系統(tǒng)為例,主庫接收數(shù)據(jù)變更,從庫讀取binlog,通過重放binlog以實現(xiàn)數(shù)據(jù)復制。在這種架構下,當主庫負載較大的時候,由于復制的是binlog,需要走完相關事務,所以主從復制就會變得很慢。當主庫數(shù)據(jù)量比較大的時候,我們增加從庫的速度也會變慢,同時數(shù)據(jù)庫備份也會變慢,我們的擴容成本也隨之增加。因此我們也逐漸開始接受走計算和存儲分離的道路,讓所有的節(jié)點都共享一個存儲。也許我們對這樣的場景習以為常,其實這就是典型的計算和存儲分離設計,現(xiàn)在很多的數(shù)據(jù)庫都在逐漸向“計算和存儲分離”靠攏,包括現(xiàn)在的PolarDB、OceanBase ,TiDB等等。所以“計算和存儲分離”應該是未來數(shù)據(jù)庫的主要發(fā)展方向。

2、消息隊列

消息隊列不論是Kafka還是RocketMQ其設計思想都是利用本地機器的磁盤來進行保存消息隊列,這樣其實是由一定的弊端的。首先容量有限,本地空間畢竟容量有限很容易造成消息堆積,會導致我們要追溯一些歷史數(shù)據(jù)的時候就會導致無法查詢,然后在擴容的時候只能擴容新節(jié)點,擴展成本也比較高。針對這些問題ApachePulsar出現(xiàn)了。

在Pulsar的架構中,數(shù)據(jù)計算和數(shù)據(jù)存儲是單獨的兩個結構。數(shù)據(jù)計算也就是Broker,其作用和Kafka的Broker類似,用于負載均衡,處理consumer和producer等,如果業(yè)務上consumer和producer特別的多,我們可以單獨擴展這一層。數(shù)據(jù)存儲也就是Bookie,pulsar使用了Apache Bookkeeper存儲系統(tǒng),并沒有過多的關心存儲細節(jié)。這樣做的好處就是,只需要關系計算層的細節(jié)和邏輯,存儲部分采用成熟的方案和系統(tǒng)。

其實Kafka也在向這些方面靠攏,比如也在討論是否支持分層存儲,但是是否會實現(xiàn)存儲節(jié)點的單獨設置也不一定,但“計算和存儲分離”的方向應該是消息隊列未來發(fā)展的主要方向。

三、大數(shù)據(jù)架構中的存算分離應用

傳統(tǒng)的大數(shù)據(jù)架構中,數(shù)據(jù)計算和存儲的資源都是共用的,比如CDH的集群配置,每個節(jié)點既是YARN計算節(jié)點又是HDFS存儲節(jié)點,其實這種設計也是源于Google的GFS。在Hadoop面世之初,網(wǎng)絡帶寬很低,為了減少大數(shù)據(jù)量的網(wǎng)絡傳輸,Hadoop采用了盡量使用節(jié)點本地存儲的設計,這就形成了計算和存儲耦合的架構。

近年來CPU算力和網(wǎng)絡速度增速遠快于存儲,數(shù)據(jù)中心有足夠的帶寬來傳輸數(shù)據(jù),隨著數(shù)據(jù)量的增長,多副本的設計和考慮也造成了成本的飆升,計算和存儲綁定的設計實用性開始變差。隨著Spark和Flink等框架逐漸代替MapReduce,批處理和流處理同時共存,也改變了舊有的業(yè)務模型,這些都需要新的大數(shù)據(jù)架構去適配。計算和存儲分離的大數(shù)據(jù)架構開始進入視野。

現(xiàn)在很多新的大數(shù)據(jù)引擎都支持計算存儲分離,可以通過外部存儲引用的方式進行數(shù)據(jù)對接,而不是通過ETL加載到本地。Hadoop生態(tài)圈也開始擁抱計算與存儲分離,Hadoop除了HDFS之外還支持S3,用戶可以在私有云或者是公有云上運行Hadoop計算集群,連接共享存儲和云存儲。

這樣做的好處也是顯而易見的,首先是可以實現(xiàn)計算和存儲資源的單獨擴容,然后原本分散的數(shù)據(jù)實現(xiàn)集中存儲,打造統(tǒng)一數(shù)據(jù)湖。更重要的一點,可以真正實現(xiàn)大數(shù)據(jù)混合云,數(shù)據(jù)存儲保留在本地,機器學習等計算資源部署在公有云,既考慮了安全性,又實現(xiàn)了計算的敏捷。計算存儲的分離,也可以方便實現(xiàn)軟件版本的靈活管理,存儲部分求穩(wěn),要保持軟件版本的穩(wěn)定,計算部分求快,可以通過數(shù)據(jù)沙盒和容器技術,實現(xiàn)不同算力模型的快速交付,各部分獨立升級互不影響。這樣我們積極可以,構建以企業(yè)數(shù)據(jù)湖為核心的穩(wěn)態(tài)數(shù)據(jù)資源服務,構建以數(shù)據(jù)計算為核心的敏態(tài)數(shù)據(jù)能力服務,在實現(xiàn)數(shù)據(jù)治理的基礎上實現(xiàn)數(shù)據(jù)運營。


文章標題:解構“存算分離”
分享地址:http://www.5511xx.com/article/dpdseee.html