日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
從語言建模到隱馬爾可夫模型:一文詳述計算語言學(xué)

計算語言學(xué)(computational linguistics)是一門跨學(xué)科的研究領(lǐng)域,它試圖找出自然語言的規(guī)律,建立運(yùn)算模型,最終讓電腦能夠像人類般分析、理解和處理自然語言。

為源匯等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計制作服務(wù),及源匯網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為成都網(wǎng)站設(shè)計、做網(wǎng)站、源匯網(wǎng)站設(shè)計,以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會得到認(rèn)可,從而選擇與我們長期合作。這樣,我們也可以走得更遠(yuǎn)!

過去,計算語言學(xué)的研究一般由專門負(fù)責(zé)利用電腦處理自然語言的計算機(jī)科學(xué)家進(jìn)行。由于近年的研究顯示人類語言的復(fù)雜性超乎想象,現(xiàn)在的計算語言學(xué)研究多由來自不同學(xué)科的專家共同進(jìn)行。一般來說,研究隊伍的成員有計算機(jī)科學(xué)家、語言學(xué)家、語言專家(熟悉有關(guān)研究項目所要處理的語言的人),以至研究人工智能、認(rèn)知心理學(xué)、數(shù)學(xué)、邏輯學(xué)等的專家。

本文為大家介紹一篇全面概述計算語言學(xué)的論文,希望能有助于各位讀者全面了解計算語言學(xué)。以下是該論文的目錄,機(jī)器之心將簡要介紹該論文所涉及到的五個主題,即語言建模與概率、機(jī)器翻譯、序列標(biāo)注與隱馬爾可夫模型、解析與 PCFG、主題模型與 PLSA 和 Gibbs 采樣,幾乎每章都有編程任務(wù)和習(xí)題。該論文在最初是 13 年發(fā)布的,但 16 年進(jìn)行了許多修正與更新。

論文地址:http://cs.brown.edu/courses/csci2951-k/papers/cl-intro.pdf

下文將分章節(jié)提供更新后的簡介與地址:

***章:語言建模與概率論

章節(jié)地址:https://cs.brown.edu/courses/csci1460/assets/files/langmod.pdf

實際上概率方法在現(xiàn)代計算語言學(xué)中是十分普遍的,該論文所有討論的方法和主題都是是基于或涉及到各種各樣的概率模型。本章節(jié)主要是希望能提供這些最基本的概率論知識,并為其它章節(jié)打下堅實的基礎(chǔ)。實際上,本論文所述的各種語言模型都需要一定的概率論基礎(chǔ),但這些概率論基礎(chǔ)只需要最簡單的概念和公式就行。更加具體的概率論請查閱概率論相關(guān)書籍。

本章介紹了概率、一元文本建模、上下文依賴和 n 元語言模型。

第二章:機(jī)器翻譯

章節(jié)地址:https://cs.brown.edu/courses/csci1460/assets/files/mt.pdf

統(tǒng)計機(jī)器翻譯背后的概念十分簡單,假定我們翻譯中文和英文,那么我們首先需要一組中英平行語料庫,即語料庫中的中文句和英文句之間的距離非常短,然后我們使用這一些語料庫對兩種語言進(jìn)行概率建模,***在進(jìn)行預(yù)測的時候只需要選擇概率***的語句作為譯文就完成了翻譯。

本章介紹了機(jī)器翻譯的基本原理、IBM Model 1 和 Model 2、基于短語的機(jī)器翻譯和解碼。不過本章節(jié)沒有介紹機(jī)器翻譯的深度學(xué)習(xí)方法,比如說 RNN、LSTM、注意力機(jī)制等,但仍然非常有助于初學(xué)者系統(tǒng)地了解統(tǒng)計機(jī)器翻譯。

第三章:序列標(biāo)注與隱馬爾可夫模型

章節(jié)地址:https://cs.brown.edu/courses/csci1460/assets/files/hmm.pdf

序列標(biāo)注問題即給定一個長度為 n 的序列 x=(x_1, . . . , x_n),還有長度為 n 的輸出序列 y = (y_1, . . . , y_n),其中 y_i ∈ Y 為 x_i 的標(biāo)注。很多語言處理任務(wù)都是采用的這種框架,因此序列標(biāo)注問題在計算語言學(xué)中占據(jù)十分重要的地位。

本章我們介紹了隱馬爾可夫模型(HMM),一種適合這類任務(wù)的非常優(yōu)雅的技術(shù)。HMM 首先用于語音識別,i 是對時間的度量。

隱馬爾可夫模型(Hidden Markov model):顯馬爾可夫過程是完全確定性的——一個給定的狀態(tài)經(jīng)常會伴隨另一個狀態(tài)。交通信號燈就是一個例子。相反,隱馬爾可夫模型通過分析可見數(shù)據(jù)來計算隱藏狀態(tài)的發(fā)生。隨后,借助隱藏狀態(tài)分析,隱馬爾可夫模型可以估計可能的未來觀察模式。在本例中,高或低氣壓的概率(這是隱藏狀態(tài))可用于預(yù)測晴天、雨天、多云天的概率。

  • 優(yōu)點:容許數(shù)據(jù)的變化性,適用于識別(recognition)和預(yù)測操作
  • 場景舉例:面部表情分析、氣象預(yù)測

本章介紹了隱馬爾可夫模型、most likely label 和維特比解碼、如何使用 HMM 確定序列概率、后向概率、評估 HMM 參數(shù)、前向-后向算法中的 MT 參數(shù)、使用 HMM 的平滑(smoothing)算法、詞性歸納(part-of-speech induction)。

第四章:解析與 PCFG

章節(jié)地址:https://cs.brown.edu/courses/csci1460/assets/files/parsing.pdf

在自然語言,如英語中,詞與詞連接起來構(gòu)成詞組,詞組和詞組連接起來構(gòu)成新的詞組。例如,在句子「Sam thinks Sandy likes the book」中,單詞「the」和「book」結(jié)合起來構(gòu)成了名詞詞組(NP)「the book」,「the book」又和動詞「like」連接起來構(gòu)成了動詞詞組(VP)「likes the book」,它與「Sandy」連接起來構(gòu)成了嵌入句或語句(S)「Sandy likes the book」。本章的主題就是解析——從單詞串中發(fā)現(xiàn)某種結(jié)構(gòu)。

本章首先介紹了短語結(jié)構(gòu)樹和依賴樹,然后介紹概率上下文無關(guān)語法(PCFG),以及使用 PCFG 進(jìn)行解析和如何評估 PCFG,之后介紹了 scoring parser。本章還介紹了評估 treebank 中較好的語法以及如何對 A 解析器進(jìn)行編程。

第五章:主題模型與 PLSA 和 Gibbs 采樣

章節(jié)地址:https://cs.brown.edu/courses/csci1460/assets/files/topicmod.pdf

本章主要介紹主題模型,寫出獲取概念「aboutness」的程序。

本章介紹了主題模型、概率潛在語義分析(PLSA)和學(xué)習(xí) PLSA 參數(shù)。

主題模型(Topic Model)在機(jī)器學(xué)習(xí)和自然語言處理等領(lǐng)域是用來在一系列文檔中發(fā)現(xiàn)抽象主題的一種統(tǒng)計模型。直觀來講,如果一篇文章有一個中心思想,那么一些特定詞語會更頻繁的出現(xiàn)。比方說,如果一篇文章是在講狗的,那「狗」和「骨頭」等詞出現(xiàn)的頻率會高些。如果一篇文章是在講貓的,那「貓」和「魚」等詞出現(xiàn)的頻率會高些。而有些詞例如「這個」、「和」大概在兩篇文章中出現(xiàn)的頻率會大致相等。但真實的情況是,一篇文章通常包含多種主題,而且每個主題所占比例各不相同。因此,如果一篇文章 10% 和貓有關(guān),90% 和狗有關(guān),那么和狗相關(guān)的關(guān)鍵字出現(xiàn)的次數(shù)大概會是和貓相關(guān)的關(guān)鍵字出現(xiàn)次數(shù)的 9 倍。一個主題模型試圖用數(shù)學(xué)框架來體現(xiàn)文檔的這種特點。主題模型自動分析每個文檔,統(tǒng)計文檔內(nèi)的詞語,根據(jù)統(tǒng)計的信息來斷定當(dāng)前文檔含有哪些主題,以及每個主題所占的比例各為多少。主題模型最初是運(yùn)用于自然語言處理相關(guān)方向,但目前已經(jīng)延伸至生物信息學(xué)等其它領(lǐng)域。

【本文是專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)文章,微信公眾號“機(jī)器之心( id: almosthuman2014)”】


分享文章:從語言建模到隱馬爾可夫模型:一文詳述計算語言學(xué)
網(wǎng)站鏈接:http://www.5511xx.com/article/cdgcjej.html