新聞中心
在本章中,我們將學(xué)習(xí)使用 AI 和 Python 進(jìn)行語音識別。 言語是成人人際溝通的最基本手段。 語音處理的基本目標(biāo)是提供人與機(jī)器之間的交互。 語音處理系統(tǒng)主要有三項任務(wù) -

站在用戶的角度思考問題,與客戶深入溝通,找到防城網(wǎng)站設(shè)計與防城網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗,讓設(shè)計與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:網(wǎng)站設(shè)計制作、成都網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、申請域名、虛擬主機(jī)、企業(yè)郵箱。業(yè)務(wù)覆蓋防城地區(qū)。
- 首先,語音識別允許機(jī)器捕捉我們所說的單詞,短語和句子
- 其次,自然語言處理使機(jī)器能夠理解我們所說的話
- 第三,語音合成允許機(jī)器說話。
本章重點講述語音識別,理解人類說話的過程。 請記住,在麥克風(fēng)的幫助下捕捉語音信號,然后系統(tǒng)才能理解它。
語音識別或自動語音識別(ASR)是 AI 機(jī)器人等 AI 項目的關(guān)注焦點。 沒有 ASR,就不可能想象一個認(rèn)知機(jī)器人與人進(jìn)行交互。 但是,構(gòu)建語音識別器并不容易。
開發(fā)語音識別系統(tǒng)的困難 開發(fā)高質(zhì)量的語音識別系統(tǒng)確實是一個難題。 語音識別技術(shù)的困難可以廣泛地表征為如下所討論的許多維度 -
- 詞匯大小
- 詞匯大小影響開發(fā) ASR 的難易程度??紤]以下詞匯量以便更好地理解。
- 例如,在一個語音菜單系統(tǒng)中,一個小詞匯由 2 到 100 個單詞組成
- 例如,在數(shù)據(jù)庫檢索任務(wù)中,中等大小的詞匯包含幾個 100 到 1000 個單詞
- 一個大的詞匯由幾萬個單詞組成,如在一般的聽寫任務(wù)中。
- 信道特性 - 信道質(zhì)量也是一個重要的維度。 例如,人類語音包含全頻率范圍的高帶寬,而電話語音包含頻率范圍有限的低帶寬。 請注意,后者更難。
- 說話模式 - 輕松開發(fā) ASR 還取決于說話模式,即語音是處于孤立詞模式還是連接詞模式,還是處于連續(xù)語音模式。 請注意,連續(xù)說話很難辨認(rèn)。
- 口語風(fēng)格 - 閱讀說話可以采用正式風(fēng)格,也可以采用自發(fā)風(fēng)格和對話風(fēng)格。 后者更難以識別。
- 揚(yáng)聲器依賴性 - 語音可以依賴揚(yáng)聲器,揚(yáng)聲器自適應(yīng)或揚(yáng)聲器獨立。 獨立發(fā)言人是最難建立的。
- 噪音類型
- 噪音是開發(fā) ASR 時需要考慮的另一個因素。 信噪比可以在各種范圍內(nèi),這取決于觀察較少的聲學(xué)環(huán)境與較多的背景噪聲 -
- 如果信噪比大于30dB,則認(rèn)為是高范圍
- 如果信噪比在 30dB 到 10db 之間,則認(rèn)為是中等信噪比
- 如果信噪比小于 10dB,則認(rèn)為是低范圍
- 麥克風(fēng)特性 - 麥克風(fēng)的質(zhì)量可能很好,平均水平或低于平均水平。 此外,嘴和微型電話之間的距離可能會有所不同。 識別系統(tǒng)也應(yīng)考慮這些因素。
盡管存在這些困難,研究人員在語音的各個方面做了很多工作,例如理解語音信號,說話人以及識別口音。
所以,需要按照以下步驟構(gòu)建語音識別器 -
本文標(biāo)題:創(chuàng)新互聯(lián)AI教程:AI人工智能構(gòu)建語音識別器
網(wǎng)站路徑:http://www.5511xx.com/article/dpsejsg.html


咨詢
建站咨詢
