一区二区三区毛A片特级,日本精品视频免费

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案

一文帶你了解得物推薦系統(tǒng)是如何做排序的。網(wǎng)友：真牛

我們提供的服務(wù)有：成都做網(wǎng)站、網(wǎng)站建設(shè)、微信公眾號(hào)開(kāi)發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、北碚ssl等。為上1000家企事業(yè)單位解決了網(wǎng)站和推廣的問(wèn)題。提供周到的售前咨詢和貼心的售后服務(wù)，是有科學(xué)管理、有技術(shù)的北碚網(wǎng)站制作公司

引言

信息時(shí)代到來(lái)以后，我們被各種各樣海量的信息所淹沒(méi)，從新聞、廣告、電商、直播、短視頻等各種涉及這些場(chǎng)景的APP中，大量個(gè)性化的信息被推送到我們眼前。例如在使用得物APP購(gòu)物的過(guò)程中，我們也常常會(huì)聽(tīng)到這樣的問(wèn)題，為什么會(huì)給我推這雙鞋/這件衣服？為什么瀏覽收藏過(guò)的商品反復(fù)出現(xiàn)在推薦流中？推薦流是怎么猜測(cè)我的喜好的？推薦的排序邏輯是怎樣的，都考慮了哪些因素？能不能主動(dòng)增加某些類(lèi)目的曝光量？這些種種的問(wèn)題，都和我們的排序模型、排序邏輯有關(guān)，下面就讓我們來(lái)聊聊推薦系統(tǒng)中是如何對(duì)商品做排序的。

圖1. 得物APP首頁(yè)推薦瀑布流

規(guī)則學(xué)習(xí)

解決問(wèn)題的第一階段，往往是依賴于直覺(jué)的，直覺(jué)告訴我們，每一個(gè)和用戶或者是商品有關(guān)的信息，都會(huì)影響到用戶的決策，這之中又必然存在著一定的數(shù)量關(guān)系，排序便有了最初的思路：人工規(guī)則。顧名思義，就是根據(jù)平臺(tái)運(yùn)營(yíng)人員對(duì)業(yè)務(wù)的熟悉程度，來(lái)直接定義物品的先后順序，例如平臺(tái)最近某件衣服是爆款，賣(mài)得很好，所以要排在前面，盡可能讓顧客看到，考慮到個(gè)性化因素，這位又是女性用戶，那么就把最近所有女性用戶購(gòu)買(mǎi)的商品做一個(gè)統(tǒng)計(jì)，按照銷(xiāo)量從高到低排序，或者更近一步，某個(gè)地區(qū)的女性用戶，最近收藏過(guò)鞋子的某地區(qū)的女性用戶….只要?jiǎng)澐钟脩籼囟ňS度后的數(shù)據(jù)流足夠多，規(guī)則足夠明確，最終所有商品對(duì)一個(gè)具體用戶都會(huì)有一個(gè)排序結(jié)果，一個(gè)粗糙的推薦排序策略也就成型了。

那么以上策略是否就是我們的排序方案呢？顯然并不是的。以上方案有兩個(gè)不太合理的地方：

人工的策略會(huì)因人而異，很難有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)，而且?guī)缀醪豢赡馨阉行畔⒄显谝黄鹄闷饋?lái)。
優(yōu)化的目標(biāo)模糊，依賴于線上實(shí)踐結(jié)果來(lái)評(píng)價(jià)好壞，總體而言大家都是為了讓平臺(tái)更好，但是每一個(gè)具體的策略，到底是優(yōu)化點(diǎn)擊率還是轉(zhuǎn)化率還是用戶的停留時(shí)長(zhǎng)、下拉深度，很難在給出規(guī)則時(shí)對(duì)結(jié)果有一個(gè)預(yù)期，線上實(shí)驗(yàn)的成本很高，而且方案的迭代周期可能是無(wú)限長(zhǎng)的（人總能想到各種不同的規(guī)則組合）。

有沒(méi)有一個(gè)方案能整合利用所有能拿到的信息，并且在上線前對(duì)結(jié)果有一個(gè)合理預(yù)期，甚至不需要上線實(shí)驗(yàn)，離線就能評(píng)估策略的好壞呢？這個(gè)時(shí)候，機(jī)器學(xué)習(xí)方法出現(xiàn)在了我們眼前。

機(jī)器學(xué)習(xí)

解決問(wèn)題的第二階段，就是在直覺(jué)的基礎(chǔ)上引入可量化的模型。模型是一個(gè)比較抽象的詞，在這里它指的是對(duì)一種映射的抽象描述，即 f（context，user，item）—> score，任何能用具體公式提供這個(gè)分?jǐn)?shù)計(jì)算邏輯的方案，都可以叫做模型。衡量一個(gè)模型好壞的標(biāo)準(zhǔn)，就是這個(gè)假設(shè)出來(lái)的映射關(guān)系與現(xiàn)實(shí)中真實(shí)的內(nèi)在關(guān)系的距離。比如個(gè)子越高，體重就越大，就是一個(gè)根據(jù)身高信息去映射體重信息的線型模型，這個(gè)模型顯然是不嚴(yán)謹(jǐn)?shù)?，但在很多時(shí)候也是成立的。說(shuō)回我們的排序模型，我們需要設(shè)計(jì)一個(gè)方案，從用戶、商品和上下文信息（事件發(fā)生的時(shí)間、場(chǎng)景等客觀信息）中，提煉出用戶對(duì)商品的偏好程度。

一個(gè)能同時(shí)整合所有信息，在形式上足夠簡(jiǎn)單，在工業(yè)界的大數(shù)據(jù)和高并發(fā)下又擁有足夠穩(wěn)定性的模型，早就已經(jīng)被數(shù)學(xué)所給出，那就是著名的邏輯回歸模型，形式如下：

圖3. 邏輯回歸函數(shù)圖像

這個(gè)模型的形式雖然簡(jiǎn)單，但思想足夠深刻，里面整合了數(shù)學(xué)界在參數(shù)估計(jì)、信息論和凸優(yōu)化等方向的研究成果，將變量用線性的方式結(jié)合起來(lái)，把定義在（-∞，+∞）的自變量映射到（0，1）的值域上，這里的（0，1）之間的分?jǐn)?shù)可以理解為用戶感興趣的概率，整個(gè)過(guò)程便成了一個(gè)點(diǎn)擊率預(yù)估問(wèn)題。當(dāng)我們用線上實(shí)時(shí)收集到的用戶行為數(shù)據(jù)作為基礎(chǔ)，把用戶的點(diǎn)擊行為轉(zhuǎn)化為0或1的訓(xùn)練目標(biāo)，便可以用很成熟的數(shù)學(xué)方案快速地求出公式中的所有最優(yōu)化參數(shù)w，從而確定下最終的計(jì)算過(guò)程。雖然邏輯回歸模型在學(xué)術(shù)界已經(jīng)是基礎(chǔ)中的基礎(chǔ)，但由于其穩(wěn)定性和極高的計(jì)算效率，工業(yè)界也依然有很多業(yè)務(wù)場(chǎng)景中使用這套模型作為線上服務(wù)的主要擔(dān)當(dāng)或者降級(jí)備用方案。

除了邏輯回歸以外，還有許多機(jī)器學(xué)習(xí)的模型被應(yīng)用在排序環(huán)節(jié)中如NB, SVM和GBDT等，其中比較成功的模型是GBDT，這里面又以陳天奇博士提出的XGBoost模型最為著名，在工業(yè)界也有廣泛的應(yīng)用。GBDT模型是以決策樹(shù)模型為基礎(chǔ)提出的組合模型，樹(shù)模型的特點(diǎn)是更加符合我們?nèi)藢?duì)事物的判斷方式，大概的思想類(lèi)似下圖：

圖4. 樹(shù)模型決策思路簡(jiǎn)述

剛才提到的GBDT模型就是將以上這種決策行為給定量化，并且使用多棵決策樹(shù)進(jìn)行組合決策的結(jié)果，相比于邏輯回歸模型，它提出了一個(gè)更符合人類(lèi)直覺(jué)的視角，將排序問(wèn)題拆解為對(duì)若干特征的而二分類(lèi)組合，將各種用戶和商品特征在決策過(guò)程中進(jìn)行了交叉，實(shí)踐中效果往往是更優(yōu)的，這也符合我們提到的“模型是對(duì)真實(shí)決策關(guān)系的模擬”這一觀點(diǎn)。但是樹(shù)模型也有它的不足，比如它優(yōu)化性能較低，對(duì)大數(shù)據(jù)量的計(jì)算性能較差，對(duì)增量訓(xùn)練的支持度較差等等。

總的來(lái)說(shuō)，無(wú)論是邏輯回歸還是GBDT模型，都是機(jī)器學(xué)習(xí)在推薦領(lǐng)域很好的實(shí)踐和探索，他們各自都還存在一些明顯的不足，業(yè)界針對(duì)這些不足的地方也都有各種補(bǔ)充和優(yōu)化的方案，經(jīng)過(guò)幾年的迭代，伴隨著理論和硬件條件雙重發(fā)展的基礎(chǔ)上，推薦系統(tǒng)迎來(lái)了它的深度學(xué)習(xí)時(shí)代。

深度學(xué)習(xí)

解決問(wèn)題的第三階段，是在成熟的工業(yè)界方案基礎(chǔ)上，加入自己對(duì)具體業(yè)務(wù)場(chǎng)景的理解。邏輯回歸公式簡(jiǎn)潔，性能可靠，GBDT思路清晰，效果出色，但他們是否就是問(wèn)題的最終解決方案呢？顯然還是不夠的，如上面提到的，他們各自都還有不少的問(wèn)題需要解決：

邏輯回歸對(duì)特征間關(guān)系的刻畫(huà)過(guò)于簡(jiǎn)單，對(duì)特征僅僅做了線性組合，與現(xiàn)實(shí)中大量的非線性關(guān)系的存在是違背的，比如女性、上海、數(shù)碼產(chǎn)品這幾個(gè)特征的簡(jiǎn)單加減法來(lái)描述用戶購(gòu)買(mǎi)傾向，與我們的認(rèn)知不符，這三個(gè)特征和購(gòu)買(mǎi)意愿的關(guān)系，更有可能是非線性的，而GBDT在處理特征組合時(shí)使用的方式也比較單一，難以刻畫(huà)更為復(fù)雜的組合關(guān)系。
數(shù)據(jù)的排序邏輯過(guò)于單一，都是以點(diǎn)擊率作為目標(biāo)，單一目標(biāo)的問(wèn)題在于，很容易導(dǎo)致結(jié)果缺乏多樣性，用戶此刻想看數(shù)碼產(chǎn)品，并不意味著滿屏的推薦都應(yīng)該變成數(shù)碼產(chǎn)品，這可能反而會(huì)降低用戶體驗(yàn)。

從解決這兩個(gè)問(wèn)題出發(fā)，我們的思路又細(xì)分到了兩個(gè)方向上，分別是拓寬模型的復(fù)雜度和多目標(biāo)下的后排序干預(yù)。

第一個(gè)問(wèn)題是拓寬模型的復(fù)雜度，在具體操作中可以分為兩個(gè)方面的工作，第一個(gè)方面，是在特征組合上盡可能提供復(fù)雜的特征，比如我們例子中，本身模型輸入的信息是性別、地區(qū)、用戶行為、商品屬性，但是我們可以人工定義一些其他的復(fù)雜特征，比如用戶是否購(gòu)買(mǎi)過(guò)同類(lèi)商品，用戶對(duì)同品牌商品的點(diǎn)擊次數(shù)等，通過(guò)增加特征的復(fù)雜度，來(lái)增加模型輸入的信息量，把一些非線性的關(guān)系轉(zhuǎn)化到線性模型上來(lái)解決，這樣做的好處是有效節(jié)省了計(jì)算資源，也減輕了線上推斷所帶來(lái)的壓力，對(duì)效果提升也很有幫助；不過(guò)弊端也是明顯的，那就是整體思路又回到了我們一開(kāi)始人工規(guī)則的老路上，依賴于人的經(jīng)驗(yàn)來(lái)做優(yōu)化，不過(guò)這里的人由平臺(tái)運(yùn)營(yíng)換成了算法工程師。所以能不能把拓寬非線性關(guān)系的工作也交給機(jī)器來(lái)完成呢？這便是第二個(gè)方面，引入深度學(xué)習(xí)的模型。

圖5. Google提出的模型的Wide&Deep模型架構(gòu)

深度學(xué)習(xí)在如今的工業(yè)界早已是大名鼎鼎，從2016年起，在谷歌的W&D模型的影響下，工業(yè)界的推薦系統(tǒng)開(kāi)始紛紛效仿，大踏步地邁進(jìn)了深度學(xué)習(xí)所統(tǒng)治的時(shí)代，如今各大廠的主流推薦模型，都是在深度學(xué)習(xí)的基礎(chǔ)上做的開(kāi)發(fā)，關(guān)于深度學(xué)習(xí)的理論知識(shí)，相關(guān)講解有很多，這里就不詳細(xì)展開(kāi)。對(duì)于推薦系統(tǒng)來(lái)說(shuō)，深度學(xué)習(xí)所解決的核心問(wèn)題，就是特征間非線性關(guān)系的自動(dòng)化挖掘。這里面的邏輯，可以說(shuō)是一個(gè)“用魔法來(lái)打敗魔法”的過(guò)程。我對(duì)這個(gè)問(wèn)題的理解是這樣的，特征間正確的組合方式是存在的，只是組合成幾何級(jí)增長(zhǎng)，遍歷嘗試的操作代價(jià)難以承受，這便是第一重“魔法”；而深度學(xué)習(xí)從理論上證明，只要給定入?yún)⒑湍繕?biāo)，它可以擬合任意復(fù)雜的函數(shù)，但是最終你也不會(huì)知道擬合出來(lái)的函數(shù)具體形式是怎樣的（可解釋性目前為止也是學(xué)術(shù)界的一個(gè)很重要的方向），這便是第二重“魔法”；一邊是你無(wú)法遍歷的組合結(jié)果，另一邊是你無(wú)法解釋的組合結(jié)果，但最終產(chǎn)出了符合你預(yù)期的業(yè)務(wù)效果，所以我稱之為一個(gè)用魔法去打敗魔法的過(guò)程，這也是業(yè)內(nèi)深度學(xué)習(xí)算法工程師又被戲稱為“煉丹工程師”的原因，很多時(shí)候工程師對(duì)于模型的具體作用原理也是難以解釋的，唯一知道的，就是它是否“有效”。

圖6.阿里巴巴提出的ESMM多目標(biāo)網(wǎng)絡(luò)

圖7.阿里巴巴提出的重排序網(wǎng)絡(luò)

關(guān)于邏輯回歸的第二個(gè)問(wèn)題，多目標(biāo)和多樣性，就不能簡(jiǎn)單通過(guò)拓寬模型復(fù)雜度來(lái)解決了。多目標(biāo)優(yōu)化和后排序干預(yù)也是現(xiàn)在推薦排序側(cè)很重要的邏輯，由于深度學(xué)習(xí)這個(gè)魔法特別好用，所以業(yè)界也產(chǎn)出了很多相關(guān)的理論模型，比如阿里的ESMM和Re-ranking模型。不過(guò)由于后排序這塊是直接影響到用戶最終體驗(yàn)的，不可解釋的魔法結(jié)果在目前的實(shí)用性和可控性上還是比不上能夠靈活調(diào)整的規(guī)則，因此在模型排序的結(jié)果環(huán)節(jié)，又加入了一些人工規(guī)則，比如類(lèi)目打散、品牌打散和曝光過(guò)濾等，來(lái)滿足一些主觀需求。最終的排序流程，還是一個(gè)計(jì)算機(jī)模型和人工規(guī)則互相輔助來(lái)實(shí)現(xiàn)的。

總結(jié)

以上便是推薦系統(tǒng)的大體排序邏輯，以后的模型還會(huì)越來(lái)越多，也未必都會(huì)局限在深度學(xué)習(xí)的領(lǐng)域，整個(gè)業(yè)界也還在探尋什么樣的模型能以最小的代價(jià)刻畫(huà)出人與物的協(xié)同關(guān)系，這個(gè)問(wèn)題很可能沒(méi)有一個(gè)標(biāo)準(zhǔn)答案，需要算法工程師根據(jù)具體的業(yè)務(wù)場(chǎng)景和業(yè)務(wù)特點(diǎn)去構(gòu)造和處理排序的問(wèn)題。最終的排序結(jié)果是在訓(xùn)練數(shù)據(jù)、特征選擇、模型結(jié)構(gòu)和后排序邏輯的共同干預(yù)作用下決定的，數(shù)據(jù)會(huì)是排序邏輯的核心，而不是人工主觀意識(shí)在駕馭和操縱的。雖然小的細(xì)節(jié)還在不斷地調(diào)整和改變，但是大的方向一定是以更復(fù)雜的特征、更合理的模型結(jié)構(gòu)、更高效的迭代方式，更靈活的規(guī)則調(diào)整來(lái)實(shí)現(xiàn)更好的業(yè)務(wù)指標(biāo)。

網(wǎng)頁(yè)標(biāo)題：一文帶你了解得物推薦系統(tǒng)是如何做排序的。網(wǎng)友：真牛
當(dāng)前路徑：http://www.5511xx.com/article/dpcoisd.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

引言

推薦系統(tǒng)

規(guī)則學(xué)習(xí)

機(jī)器學(xué)習(xí)

深度學(xué)習(xí)

總結(jié)

其他資訊