日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
創(chuàng)新互聯(lián)Python教程:python中怎么提取關(guān)鍵詞

網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)公司!專注于網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、小程序定制開發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了林甸免費建站歡迎大家使用!

簡單的關(guān)鍵詞提取

文章內(nèi)容關(guān)鍵詞的提取分為三大步: 

(1) 分詞 

(2) 去停用詞 

(3) 關(guān)鍵詞提取

分詞方法有很多,我這里就選擇常用的結(jié)巴jieba分詞;去停用詞,我用了一個停用詞表。具體代碼如下:

import jieba
import jieba.analyse
#第一步:分詞,這里使用結(jié)巴分詞全模式
text = '''新聞,也叫消息,是指報紙、電臺、電視臺、互聯(lián)網(wǎng)經(jīng)常使用的記錄社會、傳播信息、反映時代的一種文體,\
具有真實性、時效性、簡潔性、可讀性、準(zhǔn)確性的特點。\
新聞概念有廣義與狹義之分。\
就其廣義而言,除了發(fā)表于報刊、廣播、電視上的評論與專文外的常用文本都屬于新聞之列,包括消息、通訊、特寫、速寫
(有的將速寫納入特寫之列)等等。\
狹義的新聞則專指消息,消息是用概括的敘述方式,比較簡明扼要的文字,迅速及時地報道國內(nèi)外新近發(fā)生的、有價值的的事實。\
新聞也分公眾新聞和小道新聞等。每則新聞在結(jié)構(gòu)上,一般包括標(biāo)題、導(dǎo)語、主體、背景和結(jié)語五部分。\
前三者是主要部分,后二者是輔助部分。寫法上主要是敘述,有時兼有議論、描寫、評論等。
'''
fenci_text = jieba.cut(text)
#print("/ ".join(fenci_text))

#第二步:去停用詞
#這里是有一個文件存放要改的文章,一個文件存放停用表,然后和停用表里的詞比較,一樣的就刪掉,最后把結(jié)果存放在一個文件中
stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ])
final = ""
for word in fenci_text:
    if word not in stopwords:
        if (word != "。" and word != ",") :
            final = final + " " + word
print(final)

#第三步:提取關(guān)鍵詞
a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ())
b=jieba.analyse.extract_tags(text, topK = 6,   allowPOS = ())
print(a)
print(b)
#text 為待提取的文本
# topK:返回幾個 TF/IDF 權(quán)重關(guān)鍵詞,默認(rèn)值為20。
# withWeight:是否一并返回關(guān)鍵詞權(quán)重值,默認(rèn)值為False。
# allowPOS:僅包括指定詞性的詞,默認(rèn)值為空,即不進(jìn)行篩選。

運(yùn)行結(jié)果如下:

新聞 也 叫 消息 是 指 報紙 、 電臺 、 電視臺 、 互聯(lián)網(wǎng) 經(jīng)常 使用 的 記錄 社會 、 傳播 信息 、 反映 時代 的 一種 文體 
具有 真實性 、 時效性 、 簡潔性 、 可讀性 、 準(zhǔn)確性 的 特點 新聞 概念 有 廣義 與 狹義 之分 就 其 廣義 而言 除了 發(fā)表 
于 報刊 、 廣播 、 電視 上 的 評論 與 專文 外 的 常用 文本 都 屬于 新聞 之 列 包括 消息 、 通訊 、 特寫 、 速寫 
( 有 的 將 速寫 納入 特寫 之 列 ) 等等 狹義 的 新聞 則 專指 消息 消息 是 用 概括 的 敘述 方式 比較 簡明扼要 的 文字 
迅速 及時 地 報道 國內(nèi)外 新近 發(fā)生 的 、 有 價值 的 的 事實 新聞 也 分 公眾 新聞 和 小道 新聞 等 每則 新聞 在結(jié)構(gòu)上 
一般 包括 標(biāo)題 、 導(dǎo)語 、 主體 、 背景 和 結(jié)語 五 部分 前 三者 是 主要 部分 后 二者 是 輔助 部分 寫法 上 主要 是 敘述 
有時 兼有 議論 、 描寫 、 評論 等 
[('新聞', 0.4804811569680808), ('速寫', 0.2121107125313131), ('消息', 0.20363211136040404), 
('特寫', 0.20023623445272729), ('狹義', 0.16168734917858588)]
['新聞', '速寫', '消息', '特寫', '狹義', '廣義']

眾多python培訓(xùn)視頻,盡在python學(xué)習(xí)網(wǎng),歡迎在線學(xué)習(xí)!


網(wǎng)頁名稱:創(chuàng)新互聯(lián)Python教程:python中怎么提取關(guān)鍵詞
轉(zhuǎn)載來源:http://www.5511xx.com/article/dpigdop.html