新聞中心
多年來,自然語言技術(shù)一直被認(rèn)為是人機(jī)界面的“烏托邦”夢想。也即人們對計算機(jī)說出一句話,計算機(jī)就能夠理解并迅速響應(yīng)。然而,在現(xiàn)實應(yīng)用中,人們使用最為頻繁的,還是基于關(guān)鍵詞的搜索引擎。近年來,搜索引擎技術(shù)也在迅猛演進(jìn),從“關(guān)鍵詞搜索”到“SNS搜索”,再到“實體搜索”,搜索引擎變得越來越智能與社會化。為此,記者采訪了百度資深研發(fā)工程師辜斯繆。在辜斯繆的描繪下,一個搜索引擎的智能未來,正在我們眼中呈現(xiàn)。

10年積累的成都網(wǎng)站制作、成都做網(wǎng)站經(jīng)驗,可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識你,你也不認(rèn)識我。但先網(wǎng)站制作后付款的網(wǎng)站建設(shè)流程,更有秀峰免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
記者:辜斯繆您好!請問一下近年來搜索引擎技術(shù)有什么發(fā)展? 百度辜斯繆:作為搜索引擎行業(yè)的領(lǐng)導(dǎo)企業(yè),百度一直在致力于搜索技術(shù)的研發(fā)和推進(jìn)。就我個人觀察,近年來搜索引擎呈現(xiàn)出“關(guān)鍵詞”-“SNS”-“實體搜索”的遞進(jìn)式發(fā)展,其搜索對象也從“信息片段”到了“人”以及“實體”。
記者:關(guān)鍵詞搜索大家都很熟悉了,SNS搜索和實體搜索是怎么回事呢? 百度辜斯繆:其實你比如百度空間、百度知道、百度貼吧這些社區(qū)式的服務(wù),當(dāng)然還有比如微博這樣的服務(wù),實際上是將人聚合在了一起。SNS搜索,實際上就是可以讓你找到你感興趣的人,這個大家也都有體會。你看到百度空間、百度知道、百度貼吧、微博上有令你感興趣的內(nèi)容,你也能進(jìn)一步找到這個人,和他/她交朋友。 而實體(entity)搜索是相對于關(guān)鍵詞(keyword)搜索而言的。關(guān)鍵詞搜索是只能針對你輸入的關(guān)鍵詞去檢索,搜索引擎按照字面意思勤勤懇懇的去找。 實體搜索關(guān)注的重點不是“關(guān)鍵詞”級別的信息,而是“對象”,比如:人,電影,軟件,小說,公司,組織等等。從關(guān)鍵詞向?qū)嶓w轉(zhuǎn)化,將從更精細(xì)的角度來理解和組織搜索結(jié)果。在一定程度上可以理解query(即用戶搜索需求)的意思,并直接給出答案。 一些更智能更個性化的交互也依賴于實體作為基礎(chǔ),比如搜“張藝謀導(dǎo)演的電影”。 記者:這讓我想起統(tǒng)計學(xué)的一個概念“集合”? 百度辜斯繆:是的,很多時候用戶的需求就是這樣,只知道想找某一類東西,但并不明確具體要找的東西叫什么。對于這樣的需求,過去是一籌莫展的,而我們現(xiàn)在卻能夠智能的搜索到結(jié)果,并組織成一個集合呈現(xiàn)給用戶。事實上,百度在揣度用戶心思的方面做了很多努力,希望盡可能的識別出用戶的需求,哪怕用戶對需求的描述是多樣化的或者不規(guī)范的。 記者:比方說,我買了同仁堂這只股票,我搜索“同仁堂”也可以找到它的股票行情,或者搜索“600085”的股票代碼也可以搜索到它的行情? 百度辜斯繆:是的,現(xiàn)在的搜索引擎可以認(rèn)為已經(jīng)有了一定的人工智能,能夠猜到你到底要搜索什么并且能夠直接給你推送相關(guān)的結(jié)果。傳統(tǒng)搜索引擎只能“返回”用戶下的指令,實現(xiàn)不了智能的“發(fā)現(xiàn)”。比如你搜索“秋天開花的樹”,需要在搜索結(jié)果中不斷去手動探索答案。而實體搜索,用戶只需要通過一次點擊,就能得到想要的結(jié)果。之前需要用戶親自執(zhí)行的中間繁復(fù)的篩選+搜索的過程,全部由實體搜索代替用戶完成。 記者:這個挺有意思的,通俗說,搜索引擎能明白人類想要搜索什么了,就直接憑借經(jīng)驗給出結(jié)構(gòu)化的答案了。這是怎么實現(xiàn)的呢? 百度辜斯繆:在實體搜索方面,百度采用了深入的語義分析技術(shù),從分析實體屬性方向進(jìn)行算法創(chuàng)新。 實體搜索超越了傳統(tǒng)搜索只按關(guān)鍵詞的字面進(jìn)行信息查找的層面,比傳統(tǒng)搜索更加智能。這表現(xiàn)在實體搜索對關(guān)鍵詞的分析更加精細(xì),先分析出關(guān)鍵詞中的實體類型,比如:動植物,人,軟件,小說等,再分析出關(guān)鍵詞中包含的有關(guān)這個實體的屬性,比如:好看的,不掉毛的,防輻射的等等,充分理解關(guān)鍵詞想表達(dá)的意思,得到用戶搜索時真正的需求。 記者:您剛才提到的這個,應(yīng)該是要在后臺建立一個“實體”的標(biāo)簽集合吧?那這個工作量很大,百度是通過人工還是技術(shù)完成的? 百度辜斯繆:人工的成本和效率都不具備實操性。作為一家技術(shù)起家的公司,百度在這方面有自身長期的積累。我們是通過數(shù)據(jù)挖掘技術(shù)來完成實體信息獲取、屬性挖掘、關(guān)聯(lián)信息挖掘的。 實體搜索背后,需要有一個關(guān)于實體的信息數(shù)據(jù)庫,庫里的信息既要包含海量的實體信息,還要有能精確描述實體的相關(guān)屬性。實體庫的建設(shè)需要長期的積累和強(qiáng)大的數(shù)據(jù)挖掘技術(shù),這正是百度的長處。百度從互聯(lián)網(wǎng)海量的網(wǎng)頁中挖掘出有效的實體,對這些實體進(jìn)行分類,并能把關(guān)鍵的屬性也進(jìn)行分類,保證了實體信息的廣度,也保證了實體屬性的精度。 通過百度獨特的數(shù)據(jù)挖掘技術(shù),實體搜索能做到的不僅目前可見這些,還能提供更復(fù)雜的信息。比如實體之間的關(guān)聯(lián)。像人與人之間的關(guān)系,通過獲取到的資源,僅從字面信息是不能完全分辨的,需要更進(jìn)一步的挖掘和分析。比如明星的人物關(guān)系。最簡單的是家庭關(guān)系,從一張網(wǎng)頁的字面信息就能直接獲取,明星之間的朋友關(guān)系就復(fù)雜一些,不能從一張網(wǎng)頁上得到,而是需要對明星人物相關(guān)的頁面進(jìn)行整理,提取其中的相關(guān)信息,通過分析和比較,才能得出結(jié)果。 記者:這太神奇了,以前還真沒有注意到。百度現(xiàn)在“實體搜索”已經(jīng)占到了多大比例,未來的發(fā)展會怎樣? 百度辜斯繆:目前比例還是非常小,在未來,“實體搜索”會越來越扮演一個重要的角色,為廣大的百度用戶提供更加智能化的搜索體驗。 記者:其他搜索引擎可能也在做類似“實體搜索”的技術(shù)和體驗,百度相對競爭對手的優(yōu)勢在哪里? 百度辜斯繆: 百度多年來一直致力于中文搜索技術(shù)的研發(fā),積累了大量的資源和技術(shù),其中就包括“實體搜索”所依托的知識挖掘技術(shù)以及用戶需求識別技術(shù)。同時,我們一直在深入理解用戶行為,設(shè)計最能夠滿足用戶需求的產(chǎn)品。所以我們不會受特定的產(chǎn)品形式的限制,會有更多更有用也更有趣的產(chǎn)品推出來,請大家拭目以待。
文章題目:對話百度資深研發(fā)工程師辜斯繆:解密百度搜索
轉(zhuǎn)載來于:http://www.5511xx.com/article/djsipde.html


咨詢
建站咨詢
