日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
機器學(xué)習(xí):使用Python進行分類

假設(shè)你想教孩子區(qū)分蘋果和橙子。有多種方法可以做到這一點。你可以讓孩子觸摸這兩種水果,讓他們熟悉形狀和柔軟度。你還可以向她展示蘋果和橙子的多個例子,以便他們可以直觀地發(fā)現(xiàn)差異。這個過程的技術(shù)等價物被稱為機器學(xué)習(xí)。

十余年專注成都網(wǎng)站制作,企業(yè)網(wǎng)站建設(shè),個人網(wǎng)站制作服務(wù),為大家分享網(wǎng)站制作知識、方案,網(wǎng)站設(shè)計流程、步驟,成功服務(wù)上千家企業(yè)。為您提供網(wǎng)站建設(shè),網(wǎng)站制作,網(wǎng)頁設(shè)計及定制高端網(wǎng)站建設(shè)服務(wù),專注于企業(yè)網(wǎng)站建設(shè),高端網(wǎng)頁制作,對成都石雕等多個領(lǐng)域,擁有豐富的營銷推廣經(jīng)驗。

機器學(xué)習(xí)教計算機解決特定問題,并通過經(jīng)驗變得更好。這里討論的示例是一個分類問題,其中機器被賦予各種標記示例,并期望使用它從標記樣本中獲得的知識來對未標記樣本進行標記。機器學(xué)習(xí)問題也可以采用回歸的形式,其中期望根據(jù)已知樣本及其解決方案來預(yù)測給定問題的實值real-valued解決方案。分類Classification和回歸Regression被廣泛稱為監(jiān)督學(xué)習(xí)supervised learning。機器學(xué)習(xí)也可以是無監(jiān)督unsupervised的,機器識別未標記數(shù)據(jù)中的模式,并形成具有相似模式的樣本集群。機器學(xué)習(xí)的另一種形式是強化學(xué)習(xí)reinforcement learning,機器通過犯錯從環(huán)境中學(xué)習(xí)。

分類

分類是根據(jù)從已知點獲得的信息來預(yù)測一組給定點的標簽的過程。與一個數(shù)據(jù)集相關(guān)的類別或標簽可以是二元的,也可以是多元的。舉例來說,如果我們必須給與一個句子相關(guān)的情緒打上標簽,我們可以把它標記為正面、負面或中性。另一方面,我們必須預(yù)測一個水果是蘋果還是橘子的問題將有二元標簽。表
1 給出了一個分類問題的樣本數(shù)據(jù)集。

在該表中,最后一列的值,即貸款批準,預(yù)計將基于其他變量進行預(yù)測。在接下來的部分中,我們將學(xué)習(xí)如何使用 Python 訓(xùn)練和評估分類器。

年齡

信用等級

工作

擁有房產(chǎn)

貸款批準

35

32

22

一般

42

表 1

訓(xùn)練和評估分類器

為了訓(xùn)練分類器classifier,我們需要一個包含標記示例的數(shù)據(jù)集。盡管本節(jié)不涉及清理數(shù)據(jù)的過程,但建議你在將數(shù)據(jù)集輸入分類器之前閱讀各種數(shù)據(jù)預(yù)處理和清理技術(shù)。為了在 Python 中處理數(shù)據(jù)集,我們將導(dǎo)入 ??pandas?? 包和數(shù)據(jù)幀DataFrame結(jié)構(gòu)。然后,你可以從多種分類算法中進行選擇,例如決策樹decision tree、支持向量分類器support vector classifier、隨機森林random forest、XG boost、ADA boost 等。我們將看看隨機森林分類器,它是使用多個決策樹形成的集成分類器。

    from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics

classifier = RandomForestClassifier()

#creating a train-test split with a proportion of 70:30
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)

classifier.fit(X_train, y_train) # 在訓(xùn)練集上訓(xùn)練分類器

y_pred = classifier.predict(X_test) # 用未知數(shù)據(jù)評估分類器

print("Accuracy: ", metrics.accuracy_score(y_test, y_pred)) # 用測試計劃中的實際值比較準確率

雖然這個程序使用準確性作為性能指標,但應(yīng)該使用多種指標的組合,因為當(dāng)測試集不平衡時,準確性往往會產(chǎn)生非代表性的結(jié)果。例如,如果模型對每條記錄都給出了相同的預(yù)測,而用于測試模型的數(shù)據(jù)集是不平衡的,即數(shù)據(jù)集中的大多數(shù)記錄與模型預(yù)測的類別相同,我們就會得到很高的準確率。

調(diào)整分類器

調(diào)優(yōu)是指修改模型的超參數(shù)hyperparameter值以提高其性能的過程。超參數(shù)是可以改變其值以改進算法的學(xué)習(xí)過程的參數(shù)。

以下代碼描述了隨機搜索超參數(shù)調(diào)整。在此,我們定義了一個搜索空間,算法將從該搜索空間中選擇不同的值,并選擇產(chǎn)生最佳結(jié)果的那個:

    from sklearn.model_selection import RandomizedSearchCV
#define the search space
min_samples_split = [2, 5, 10]
min_samples_leaf = [1, 2, 4]
grid = {‘min_samples_split’ : min_samples_split, ‘min_samples_leaf’ : min_samples_leaf}
classifier = RandomizedSearchCV(classifier, grid, n_iter = 100)
# n_iter 代表從搜索空間提取的樣本數(shù)
# result.best_score 和 result.best_params_ 可以用來獲得模型的最佳性能,以及參數(shù)的最佳值
classifier.fit(X_train, y_train)

投票分類器

你也可以使用多個分類器和它們的預(yù)測來創(chuàng)建一個模型,根據(jù)各個預(yù)測給出一個預(yù)測。這個過程(只考慮為每個預(yù)測投票的分類器的數(shù)量)被稱為硬投票。軟投票是一個過程,其中每個分類器產(chǎn)生一個給定記錄屬于特定類別的概率,而投票分類器產(chǎn)生的預(yù)測是獲得最大概率的類別。

下面給出了一個創(chuàng)建軟投票分類器的代碼片段:

    soft_voting_clf = VotingClassifier(
estimators=[(‘rf’, rf_clf), (‘a(chǎn)da’, ada_clf), (‘xgb’, xgb_clf), (‘et’, et_clf), (‘gb’, gb_clf)],
voting=’soft’)
soft_voting_clf.fit(X_train, y_train)

這篇文章總結(jié)了分類器的使用,調(diào)整分類器和結(jié)合多個分類器的結(jié)果的過程。請將此作為一個參考點,詳細探討每個領(lǐng)域。


本文名稱:機器學(xué)習(xí):使用Python進行分類
標題路徑:http://www.5511xx.com/article/dhgessc.html