天天日天天插天天操,国产一级免费强奸

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

PAI分布式機器學習平臺編程模型演進之路

作者：佚名 2017-06-29 13:29:34

大數(shù)據(jù)

分布式機器學習即服務，把機器學習作為服務對外推出，大家可以在平臺上使用比較先進的機器學習算法。將多種深度學習框架集成到PAI中，同時基于深度學習框架包裝成更加易用的組件。具備異構的計算服務能力，把CPU計算能力和GPU計算能力統(tǒng)一調度起來，異構的計算能力透明，大家的注意力是哪些機器學習算法可以幫助業(yè)務，不用關心底層資源的申請和分配。PAI也支持在線預測服務，模型一鍵發(fā)布。

讓客戶滿意是我們工作的目標，不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術通過有效、簡單的方式提供給客戶，將通過不懈努力成為客戶在信息化領域值得信任、有價值的長期合作伙伴，公司提供的服務項目有：域名注冊、網(wǎng)頁空間、營銷軟件、網(wǎng)站建設、訥河網(wǎng)站維護、網(wǎng)站推廣。

什么是PAI?

PAI的全稱是Platform of Artificial Intelligence，主要在使用機器學習做模型訓練時提供整套鏈路。機器學習即服務，把機器學習作為服務對外推出，大家可以在平臺上使用比較先進的機器學習算法。將多種深度學習框架集成到PAI中，同時基于深度學習框架包裝成更加易用的組件。具備異構的計算服務能力，把CPU計算能力和GPU計算能力統(tǒng)一調度起來，異構的計算能力透明，大家的注意力是哪些機器學習算法可以幫助業(yè)務，不用關心底層資源的申請和分配。PAI也支持在線預測服務，模型一鍵發(fā)布。

大規(guī)模分布式機器學習的挑戰(zhàn)

數(shù)據(jù)規(guī)模和特征會不斷增加，這就會導致模型復雜度的增加，之前的模型已經(jīng)不能夠處理這么高的復雜度了。特征增加之后，模型變得越來越大，模型很難做到單機加載，所以在模型存儲時需要做分片和切分。在常規(guī)的機器學習里面，更多的注意力放在理解業(yè)務的數(shù)據(jù)、特征，而現(xiàn)在的注意力會轉移到模型本身，更多考慮怎么通過調整模型的結構達到更好的預測效果。

編程模型演進

MapReduce編程模型

MapReduce核心的思想是分而治之，即把數(shù)據(jù)切分成很多塊，每個節(jié)點處理其中的一小塊。做分布式系統(tǒng)時會面臨很多問題，比如希望計算任務可以在MapReduce框架層面做切分和調度。MapReduce從框架層面極大地降低了把任務遷移到分布式計算系統(tǒng)上的難度和門檻。對于數(shù)據(jù)的分布式存儲和劃分，數(shù)據(jù)可分散存儲在幾千臺機器上，并且都有相應副本，不需要擔心數(shù)據(jù)的丟失，底層的分布式存儲會統(tǒng)一進行處理。計算任務的同步和計算節(jié)點的容錯與恢復，若使用普通機器去搭大型計算群的時候，機器的宕機時比較普遍的現(xiàn)象，使用MapReduce則不需要關心這一點。右圖是MapReduce的編程模型，最初是用來處理SQL等問題。

在機器學習里面，有些算法是基于MapReduce編程模型去實現(xiàn)的。TF-IDF用來評估文檔里面單詞是否能表示文檔主題。首先計算文檔里面單詞出現(xiàn)的頻率，把謂詞和嘆詞去掉，關注真正有意義的詞。IDF則是統(tǒng)計該詞在所有文檔里面出現(xiàn)的頻率，將其和文檔里出現(xiàn)的頻率經(jīng)過算法計算得出最終結果。這個過程如何通過MapReduce實現(xiàn)呢?在Mapper中迭代的去加載每一篇要訓練的文章，在迭代過程中統(tǒng)計每個單詞出現(xiàn)的頻率。將統(tǒng)計結果放入Reducer中，進行計算，得到TF-IDF結果表。

MapReduce編程模型有兩個特點：不同計算任務之間獨立，每個Mapper和Reducer只會計算自己相關的數(shù)據(jù)，數(shù)據(jù)并行度高;適合不需要不同節(jié)點通信的機器學習算法。

MPI編程模型

邏輯回歸算法是需要節(jié)點間進行通信的，該算法在個性化推薦中可以經(jīng)?？吹健€性化推薦算法是指每個人點擊進來之后會進行分類，判斷是否會對某些商品感興趣，然后進行推薦。模型函數(shù)如上圖中公式所示，定義損失函數(shù)，損失函數(shù)值越小說明模型擬合越好，尋找損失函數(shù)最小值的過程中用到了梯度下降算法。

早期，很多邏輯回歸算法都是基于MPI編程模型實現(xiàn)的，MPI是消息傳遞接口，定義了Send，Receive，BC阿斯圖，AllReduce接口，支持單機多Instance和多機多Instance，具有高度靈活，描述能力強，大量用于科學計算。

MPI使用時有很多限制，首先必須提前知道階段任務在哪些計算節(jié)點上做。在大規(guī)模的計算集群里面，所有資源的分配都是動態(tài)的，在任務執(zhí)行之前不知道任務會調度到哪些節(jié)點上，但是早期有很多算法需要基于MPI實現(xiàn)，所以對MPI底層做了網(wǎng)絡拓撲的建立，做了大量的重構，幫助MPI相關程序能夠基于分布式的調度系統(tǒng)調度起來。

邏輯回歸的實現(xiàn)過程如上圖所示。其中，有n個計算節(jié)點，首先會加載訓練樣本，計算梯度，然后本地加和，最后調用AllReduce接口去計算現(xiàn)在模型所在的位置。MPI本身還存在一些缺點：首先MPI中Worker的數(shù)目有上限，當需要更多節(jié)點的時候會發(fā)生性能下降。

參數(shù)服務器Parameter Server

Parameter Server和MPI相比，在更高的層次定義了編程模型和接口。Parameter Server中有三個角色，Server節(jié)點用來存儲模型，計算節(jié)點會加載部分模型、訓練數(shù)據(jù)，每輪迭代時每個節(jié)點會計算下個梯度，將節(jié)點和Server進行通信。Coordinator用來判斷訓練是否結束。此外，Parameter Server支持異步通信接口，不需要在不同計算節(jié)點間做同步。

阿里在2014年下半年，獨立自研了PAI Parameter Server計算模型，已在集團內大規(guī)模使用。具體做的工作如上圖所示。MPI的一個缺點是不支持容錯，而每天上萬臺的集群會出現(xiàn)各種各樣的故障，PAI Parameter Server針對大規(guī)模集群做了節(jié)點容錯功能。Parameter Server集成很多算法，比如邏輯回歸等。

深度學習

深度學習是人工神經(jīng)網(wǎng)絡的延伸，相比之下能夠支持更深的網(wǎng)絡。上圖中，Alexnet是卷積神經(jīng)網(wǎng)絡，總共有8層網(wǎng)絡，深度學習如果想要獲得更好的效果，必須要構建一個更深的神經(jīng)網(wǎng)絡。隨著神經(jīng)網(wǎng)絡變深，需要更多的參數(shù)，并且模型也會更加龐大。多級訓練則需要更高量級的通信量。

TensorFlow

TensorFlow是谷歌第二代的深度學習框架，支持各種神經(jīng)網(wǎng)絡，具有高度的靈活性，豐富的社區(qū)生態(tài)，支持CNN、RNN、LSTM等網(wǎng)絡。

上圖中TensorFlow的例子是兩層神經(jīng)網(wǎng)絡做圖片的分類。上面通過API定義訓練圖片和測試數(shù)據(jù)，接著定義了模型(softmax多分類模型)，定義損失函數(shù)通過交叉熵來做，最后選擇優(yōu)化函數(shù)找最優(yōu)點。下面部分則是通過API把訓練數(shù)據(jù)喂給模型再計算當前模型的準確率。從上例中，可以看出，API非常靈活，基于Python，所以非常方便。

PAI TensorFlow

將TensorFlow遷移到PAI上之后，將TensorFlow作業(yè)服務化，起TensorFlow作業(yè)的時候不需要去申請資源、做訓練數(shù)據(jù)的遷移;分布式調度(包括單機和多機)只需提交模型訓練Python文件;GPU卡映射;多種數(shù)據(jù)源，結構化數(shù)據(jù)和非結構化數(shù)據(jù)都支持;超參支持，訓練模型時會調整學習率，通過超參把參數(shù)存進來就不需要每次都調整了;模型在線預測，訓練好模型之后可以部署到在線預測服務上，調用API獲知模型結果是否正面。

PAI Pluto(多機多卡Caffe)

Caffe早于TensorFlow，Caffe可以認為是第一代的深度學習框架，使用Caffe時需要通過配置文件配置深度學習的卷積神經(jīng)網(wǎng)路。目前，很多關于圖像的應用都是基于Caffe來做的，使用CNN的網(wǎng)絡，比如身份證識別、駕照識別等。其缺點是單機，當訓練樣本多的時候訓練時間非常長。將Caffe底層嫁接到OpenMPI通信框架上，可以支持多機Caffe，能夠達到線性加速比。

總結

前文提到了PAI上支持的各種編程模型，在公有云上希望把機器學習作為一個服務推出來，包括數(shù)據(jù)上傳、數(shù)據(jù)清洗、特征工程、模型訓練、模型評價。這樣就可以在PAI上做一站式的模型訓練和預測。

分享名稱：PAI分布式機器學習平臺編程模型演進之路
網(wǎng)站URL：http://www.5511xx.com/article/dpjpjsg.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

PAI分布式機器學習平臺編程模型演進之路

其他資訊