日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
為電商而生的知識圖譜,如何感應(yīng)用戶需求?

1、背景

成都創(chuàng)新互聯(lián)公司專業(yè)為企業(yè)提供永新網(wǎng)站建設(shè)、永新做網(wǎng)站、永新網(wǎng)站設(shè)計、永新網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計與制作、永新企業(yè)網(wǎng)站模板建站服務(wù),10多年永新做網(wǎng)站經(jīng)驗,不只是建網(wǎng)站,更提供有價值的思路和整體網(wǎng)絡(luò)服務(wù)。

電商認(rèn)知圖譜從17年6月啟動以來,通過不斷從實踐到體系化的摸索,逐漸形成了一套較為完善的電商數(shù)據(jù)認(rèn)知體系。

在當(dāng)前集團(tuán)不斷拓展業(yè)務(wù)邊界的背景下,數(shù)據(jù)互聯(lián)的需求越來越強(qiáng)烈,因為這是跨領(lǐng)域的搜索發(fā)現(xiàn)、導(dǎo)購和交互的基礎(chǔ),也是真正能讓用戶“逛起來”要具備的基礎(chǔ)條件。但在此之前,我們需要對當(dāng)前的問題做一個分析。

1.1問題

更復(fù)雜的數(shù)據(jù)應(yīng)用場景不僅是傳統(tǒng)的電商,現(xiàn)在我們面臨的是新零售、多語言、線上線下結(jié)合的復(fù)雜購物場景,所用到的數(shù)據(jù)也往往超出了以往的文本范圍,這些數(shù)據(jù)往往都具有一些特點:

非結(jié)構(gòu)化互聯(lián)網(wǎng)的大量數(shù)據(jù)都是分散在各個來源而且基本是非結(jié)構(gòu)化文本方式來表示,目前的類目體系從商品管理角度出發(fā),做了長期而大量的工作,仍然只是覆蓋了大量數(shù)據(jù)的冰山一角,這對于認(rèn)知真正的用戶需求當(dāng)然是遠(yuǎn)遠(yuǎn)不夠的。

充滿噪聲:不同于傳統(tǒng)的文本分析,目前集團(tuán)內(nèi)的數(shù)據(jù)大部分是query、title、評論、攻略等,這些數(shù)據(jù)由于用戶習(xí)慣和商家訴求,會存在非常不同于普通文本的語法結(jié)構(gòu),也會由于利益原因存在大量噪聲和臟數(shù)據(jù),這也為真正發(fā)現(xiàn)用戶需求并結(jié)構(gòu)化帶來了極大的困難。

多模態(tài)、多源:隨著集團(tuán)的業(yè)務(wù)擴(kuò)展,目前的搜索推薦不僅容納了商品中的文本信息、大量視頻、圖片也作為內(nèi)容被使用、如何融合各個來源的數(shù)據(jù)、如何在關(guān)聯(lián)多模態(tài)數(shù)據(jù)也是數(shù)據(jù)建設(shè)的一個難點。

數(shù)據(jù)分散,無法互聯(lián):從目前的商品體系建設(shè)來說,各個部門由于業(yè)務(wù)快速發(fā)展,往往需要維護(hù)自己的一套cpv體系,這也是后期做商品管理和搜索的非常關(guān)鍵的一環(huán),但是由于應(yīng)用場景的行業(yè)屬性不一樣,比如閑魚的"包配飾"由于業(yè)務(wù)場景高頻會是一個需要再細(xì)分的類目,但在淘系由于交易搜索低頻,"鞋包配飾"僅僅是二手閑置下的一個小類目,這造成各個部門需要費力地維護(hù)在自己的cpv體系上的查詢和搜索,每次都要重建自己的類目體系,重新支持存儲查詢,重新關(guān)聯(lián)商品,重新做類目預(yù)測等。如何建設(shè)一個比較通用的面向應(yīng)用的概念體系,支持根據(jù)業(yè)務(wù)需求提供查詢服務(wù),已經(jīng)迫在眉睫。

缺少數(shù)據(jù)的深度認(rèn)知:數(shù)據(jù)的深度認(rèn)知不是認(rèn)知商品,而是認(rèn)知用戶需求之間的關(guān)聯(lián),如何能在用戶搜索"葉酸”的時候認(rèn)知到她有備孕需求,如何能在用戶大量點擊燒烤調(diào)料和工具的時候認(rèn)知到他需要進(jìn)行野外燒烤,是目前全集團(tuán)都缺少的。

1.2需求分析

通過如下的背景介紹,我們可以明確到,為了構(gòu)建一個全局統(tǒng)一的知識表示和查詢框架,我們需要如下的關(guān)鍵工作。

復(fù)雜場景的數(shù)據(jù)結(jié)構(gòu)化:在復(fù)雜的場景下,我們首先要做的是數(shù)據(jù)清洗,通過頻次過濾、規(guī)則和統(tǒng)計分析把臟數(shù)據(jù)去掉,然后通過短語挖掘,信息抽取等方法把高可用的數(shù)據(jù)抓取出來,進(jìn)行數(shù)據(jù)的結(jié)構(gòu)化和層次劃分。

分散數(shù)據(jù)的統(tǒng)一表示框架:對于管理分散數(shù)據(jù),我們首先是需要定義一個全局的schema表示和存儲方法,然后基于schema進(jìn)行概念數(shù)據(jù)的融合,屬性的挖掘和發(fā)現(xiàn),在數(shù)據(jù)關(guān)聯(lián)上有可能要通過各種表示學(xué)習(xí)的方法來完成。

數(shù)據(jù)深度認(rèn)知:深度認(rèn)知包含兩個方面,一個是數(shù)據(jù)本身的認(rèn)知,一個是數(shù)據(jù)關(guān)聯(lián)的認(rèn)知,通過行為和商品本身的信息我們可以認(rèn)知到用戶購買商品的意圖,通過外部數(shù)據(jù)的輸入和摘要我們會得到常識類和商品體系之外的用戶需求的關(guān)聯(lián)。

1.3電商認(rèn)知圖譜

為了解決上面的問題,我們提出了電商認(rèn)知圖譜(E-commerceConceptNet),目標(biāo)是建立電商領(lǐng)域的知識體系,通過深度認(rèn)知用戶需求,實現(xiàn)電商場景下關(guān)聯(lián)人-貨-場的聯(lián)動,賦能業(yè)務(wù)方和行業(yè)。

1.3.1模塊劃分

從整體劃分上來說,認(rèn)知圖譜分為四塊比較重要的工作,通過將不同類型的concept(user,scene,virtualcategory和item)構(gòu)建為一個異構(gòu)圖,來實現(xiàn)用戶-場景-商品的關(guān)聯(lián):

用戶圖譜構(gòu)建用戶圖譜除了通用的用戶畫像信息(年齡、性別、購買力),也會有“老人”,“小孩”等人群數(shù)據(jù),和用戶的品類屬性偏好數(shù)據(jù)。

1.3.2場景圖譜構(gòu)建

場景可以看做是對用戶需求的概念化,從現(xiàn)有的query和title中識別出用戶需求,泛化為一個通用的場景(sceneconcept),并建立諸如"戶外燒烤","度假穿搭"之類的概念是場景圖譜的主要工作。通過不斷細(xì)化的場景需求,我們將跨類目和品類,代表了一類用戶需求的概念抽象為購物場景(sc)。

挖掘了概念相當(dāng)于我們得到了圖上的節(jié)點,在概念挖掘之上,我們又著手建立概念與類目和品類,概念和概念之間的關(guān)系,相當(dāng)于建立了圖上的有向邊,并計算邊的強(qiáng)度,具體流程如下:

截止目前,我們已經(jīng)產(chǎn)出10w+概念和10倍的品類類目關(guān)聯(lián)。

1.3.3品類細(xì)化

品類細(xì)化的來源是由于目前的類目體系會過粗或者過細(xì),從構(gòu)建上包括兩個層面:

品類聚合:比如"連衣裙“從認(rèn)知層面上來說都是一個品類,但是由于分行業(yè)管理的原因會同時存在"女裝”,"男裝"和"童裝"等不同類目中,這時候就會存在于兩個一級類目下,所以就需要有一個偏常識的體系來維護(hù)對真正"連衣裙"的認(rèn)知。

品類拆分:品類細(xì)化是源于我們發(fā)現(xiàn)現(xiàn)有的類目體系不足以聚合一類用戶需求,比如有一個“西藏旅游”的場景,在“紗巾”類目下我們需要更多的細(xì)節(jié),這時候就需要一個叫做“防風(fēng)紗巾"的虛擬類目。這個過程同樣是存在entity/conceptextraction和relationclassification的,當(dāng)前我們主要針對類目和品類品類上下位建立關(guān)系。

截止目前,我們已經(jīng)有融合了cpv類目樹,品類類目關(guān)聯(lián),和外網(wǎng)數(shù)據(jù)的pair對68.9w+對。

1.3.4商品圖譜構(gòu)建

短語挖掘:商品圖譜端我們需要的是做更多的商品屬性認(rèn)知,我們知道,完善的cpv體系的前提是phrase的認(rèn)知,針對此我們建立了一個bootstrap框架下的cpv挖掘閉環(huán),目標(biāo)是能夠長期有效積累cpv數(shù)據(jù),擴(kuò)大query和商品的認(rèn)知(這也是商品打標(biāo)的數(shù)據(jù)來源之一)。

舉例來說:

截止至目前,我們已經(jīng)完成了pvtop70的類目審核,增加了12W+的cpv對,term能夠全量被識別的query占比已經(jīng)從30%提升到60%(由于目前采用中粒度分詞進(jìn)行挖掘,前期分析70%已經(jīng)是極限,后續(xù)會在增加phrasemining流程后持續(xù)擴(kuò)大挖掘覆蓋),目前數(shù)據(jù)已經(jīng)作為類目預(yù)測,智能交互的基礎(chǔ)數(shù)據(jù)每日產(chǎn)出。

商品打標(biāo):商品打標(biāo)是我們得以將知識和商品建立關(guān)聯(lián)的關(guān)鍵技術(shù),上述三點產(chǎn)生的數(shù)據(jù)***都會通過打標(biāo)建立與item的聯(lián)系,在商品打標(biāo)完成后我們就可以實現(xiàn)從query到商品的整個語義認(rèn)知閉環(huán)。

預(yù)計到三月底我們可以實現(xiàn)***版的商品打標(biāo)。

2、知識體系

在知識構(gòu)建的過程中,我們漸漸發(fā)現(xiàn)需要一套全局統(tǒng)一的schema表示體系,于是我們調(diào)研了wordnet和conceptnet的體系構(gòu)建歷程,逐漸形成了自己的一套概念表示體系,也就是現(xiàn)有的認(rèn)知圖譜的核心(E-commerceConceptNet),它的目標(biāo)是從語義層面去理解電商領(lǐng)域的用戶需求并將其概念化(conceptulization),映射到一個語義本體(ontology),通過詞匯層面的關(guān)系逐漸把本體之間的關(guān)系形式化(specific),通過本體之間的層級去表示概念之間的層級,通過概念之間的關(guān)系去抽象實體類別和關(guān)系。

從數(shù)據(jù)層面上來看,我們要描述一個事物(entity),首先需要把它定義為一種類別(instance-of-class)的實例,這種類別通常又可以通過一個概念(concept)來表示,不同的概念會有自己不同的屬性(proeprty),一類概念的具有的屬性集合可以稱為概念的schema,有同一類schema的概念一般會屬于不同的領(lǐng)域(domain),領(lǐng)域內(nèi)有自己的語義本體(ontoloty),通過本體的層次(比如“英國"-is-part-of-”英國"),我們可以形式化概念的層級和表示。那么由細(xì)到粗的,我們定義了一套電商概念體系的表示方法,通過不斷細(xì)化ontology和concept,以及他們之間的關(guān)系,來關(guān)聯(lián)起用戶和商品,甚至外部的實體。

3、技術(shù)框架

3.1平臺模塊

總體來說,我們是以一個數(shù)據(jù)服務(wù)中臺支撐起上面的圖引擎,再通過阡陌數(shù)據(jù)管理平臺,和圖靈業(yè)務(wù)對接平臺來實現(xiàn)知識的生產(chǎn)和使用的。

3.2模塊細(xì)節(jié)

阡陌:數(shù)據(jù)標(biāo)注和展示

阡陌作為電商知識圖譜的基本平臺,目前集成了所有知識標(biāo)注和審核流程,并且提供了數(shù)據(jù)查詢和可視化,后期算法的概念挖掘服務(wù)和商品打標(biāo)服務(wù)也會通過阡陌對外提供。

  • 數(shù)據(jù)審核在不斷試錯過程中我們已經(jīng)建立了一套比較完善的從初審到終審的流程,具體見阡陌審核工具。

  • 可視化:除了審核平臺,阡陌還提供了更加具體的數(shù)據(jù)可視化形式,通過良好的交互方便查詢知識阡陌可視化

3.3圖靈:業(yè)務(wù)全選和投放

由于目前我們的知識大部分以卡片形式提供,圖靈提供了一整套經(jīng)由云主題透出的業(yè)務(wù)服務(wù)工具:

概念選擇:

用戶可以通過全選自己的主題進(jìn)行分渠道投放

3.4圖引擎:數(shù)據(jù)存儲和查詢

從存儲介質(zhì)來說,我們使用mysql進(jìn)行靈活標(biāo)注,圖數(shù)據(jù)庫進(jìn)行全量查詢,odps做持久化數(shù)據(jù)版本管理。

在數(shù)據(jù)錄入到igraph和biggraph之前會被拆分為點表和邊表導(dǎo)入,在線通過gremlin進(jìn)行查詢。

在圖數(shù)據(jù)庫上層我們封裝了一個圖引擎模塊,提供不同trigger的場景和商品多路多跳召回功能。目前提供user,item_list和query召回,已經(jīng)在喵小秘使用,并且和搜索發(fā)現(xiàn)進(jìn)行聯(lián)調(diào)中,可以使用查詢接口進(jìn)行查詢和測試。

3.5技術(shù)落地

云主題(認(rèn)知圖譜)目前在云主題已經(jīng)通過知識卡片的形式上線近1w個場景,比較首猜商品來說,點擊和發(fā)散性較商品均有大幅提升,現(xiàn)在正在做數(shù)據(jù)發(fā)散性的探索。

錦囊(全量)/底紋(bts)

搜索

穹頂

四、后期規(guī)劃

目前認(rèn)知圖譜剛剛發(fā)展近一年,還有很多工作需要細(xì)化,后續(xù)的工作重點會放在:

關(guān)系挖掘和本體構(gòu)建

通過文本增強(qiáng)圖譜和外部數(shù)據(jù)的關(guān)聯(lián)

常識類推理規(guī)則的挖掘

圖推理的符號邏輯表示

【本文為專欄作者“阿里巴巴官方技術(shù)”原創(chuàng)稿件,轉(zhuǎn)載請聯(lián)系原作者】


文章標(biāo)題:為電商而生的知識圖譜,如何感應(yīng)用戶需求?
轉(zhuǎn)載來源:http://www.5511xx.com/article/dpggdie.html