日本A波多野结衣,欧美国产在线一区二区三区四区,日韩在线播放色情片

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

機器學(xué)習(xí)：使用Python進行分類

假設(shè)你想教孩子區(qū)分蘋果和橙子。有多種方法可以做到這一點。你可以讓孩子觸摸這兩種水果，讓他們熟悉形狀和柔軟度。你還可以向她展示蘋果和橙子的多個例子，以便他們可以直觀地發(fā)現(xiàn)差異。這個過程的技術(shù)等價物被稱為機器學(xué)習(xí)。

十余年專注成都網(wǎng)站制作，企業(yè)網(wǎng)站建設(shè)，個人網(wǎng)站制作服務(wù)，為大家分享網(wǎng)站制作知識、方案，網(wǎng)站設(shè)計流程、步驟,成功服務(wù)上千家企業(yè)。為您提供網(wǎng)站建設(shè),網(wǎng)站制作,網(wǎng)頁設(shè)計及定制高端網(wǎng)站建設(shè)服務(wù),專注于企業(yè)網(wǎng)站建設(shè),高端網(wǎng)頁制作,對成都石雕等多個領(lǐng)域，擁有豐富的營銷推廣經(jīng)驗。

機器學(xué)習(xí)教計算機解決特定問題，并通過經(jīng)驗變得更好。這里討論的示例是一個分類問題，其中機器被賦予各種標記示例，并期望使用它從標記樣本中獲得的知識來對未標記樣本進行標記。機器學(xué)習(xí)問題也可以采用回歸的形式，其中期望根據(jù)已知樣本及其解決方案來預(yù)測給定問題的實值real-valued解決方案。分類Classification和回歸Regression被廣泛稱為監(jiān)督學(xué)習(xí)supervised learning。機器學(xué)習(xí)也可以是無監(jiān)督unsupervised的，機器識別未標記數(shù)據(jù)中的模式，并形成具有相似模式的樣本集群。機器學(xué)習(xí)的另一種形式是強化學(xué)習(xí)reinforcement learning，機器通過犯錯從環(huán)境中學(xué)習(xí)。

分類

分類是根據(jù)從已知點獲得的信息來預(yù)測一組給定點的標簽的過程。與一個數(shù)據(jù)集相關(guān)的類別或標簽可以是二元的，也可以是多元的。舉例來說，如果我們必須給與一個句子相關(guān)的情緒打上標簽，我們可以把它標記為正面、負面或中性。另一方面，我們必須預(yù)測一個水果是蘋果還是橘子的問題將有二元標簽。表
1 給出了一個分類問題的樣本數(shù)據(jù)集。

在該表中，最后一列的值，即貸款批準，預(yù)計將基于其他變量進行預(yù)測。在接下來的部分中，我們將學(xué)習(xí)如何使用 Python 訓(xùn)練和評估分類器。

年齡	信用等級	工作	擁有房產(chǎn)	貸款批準
35	好	是	是	是
32	差	是	不	不
22	一般	不	不	不
42	好	是	不	是

表 1

訓(xùn)練和評估分類器

為了訓(xùn)練分類器classifier，我們需要一個包含標記示例的數(shù)據(jù)集。盡管本節(jié)不涉及清理數(shù)據(jù)的過程，但建議你在將數(shù)據(jù)集輸入分類器之前閱讀各種數(shù)據(jù)預(yù)處理和清理技術(shù)。為了在 Python 中處理數(shù)據(jù)集，我們將導(dǎo)入 ??pandas?? 包和數(shù)據(jù)幀DataFrame結(jié)構(gòu)。然后，你可以從多種分類算法中進行選擇，例如決策樹decision tree、支持向量分類器support vector classifier、隨機森林random forest、XG boost、ADA boost 等。我們將看看隨機森林分類器，它是使用多個決策樹形成的集成分類器。

    from sklearn.ensemble import RandomForestClassifier
    from sklearn import metrics
     
    classifier = RandomForestClassifier()
     
    #creating a train-test split with a proportion of 70:30
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)
     
    classifier.fit(X_train, y_train) # 在訓(xùn)練集上訓(xùn)練分類器
     
    y_pred = classifier.predict(X_test) # 用未知數(shù)據(jù)評估分類器
     
    print("Accuracy: ", metrics.accuracy_score(y_test, y_pred)) # 用測試計劃中的實際值比較準確率

雖然這個程序使用準確性作為性能指標，但應(yīng)該使用多種指標的組合，因為當(dāng)測試集不平衡時，準確性往往會產(chǎn)生非代表性的結(jié)果。例如，如果模型對每條記錄都給出了相同的預(yù)測，而用于測試模型的數(shù)據(jù)集是不平衡的，即數(shù)據(jù)集中的大多數(shù)記錄與模型預(yù)測的類別相同，我們就會得到很高的準確率。

調(diào)整分類器

調(diào)優(yōu)是指修改模型的超參數(shù)hyperparameter值以提高其性能的過程。超參數(shù)是可以改變其值以改進算法的學(xué)習(xí)過程的參數(shù)。

以下代碼描述了隨機搜索超參數(shù)調(diào)整。在此，我們定義了一個搜索空間，算法將從該搜索空間中選擇不同的值，并選擇產(chǎn)生最佳結(jié)果的那個：

    from sklearn.model_selection import RandomizedSearchCV
    #define the search space
    min_samples_split = [2, 5, 10]
    min_samples_leaf = [1, 2, 4]
    grid = {‘min_samples_split’ : min_samples_split, ‘min_samples_leaf’ : min_samples_leaf}
    classifier = RandomizedSearchCV(classifier, grid, n_iter = 100)
    # n_iter 代表從搜索空間提取的樣本數(shù)
    # result.best_score 和 result.best_params_ 可以用來獲得模型的最佳性能，以及參數(shù)的最佳值
    classifier.fit(X_train, y_train)

投票分類器

你也可以使用多個分類器和它們的預(yù)測來創(chuàng)建一個模型，根據(jù)各個預(yù)測給出一個預(yù)測。這個過程（只考慮為每個預(yù)測投票的分類器的數(shù)量）被稱為硬投票。軟投票是一個過程，其中每個分類器產(chǎn)生一個給定記錄屬于特定類別的概率，而投票分類器產(chǎn)生的預(yù)測是獲得最大概率的類別。

下面給出了一個創(chuàng)建軟投票分類器的代碼片段：

    soft_voting_clf = VotingClassifier(
    estimators=[(‘rf’, rf_clf), (‘a(chǎn)da’, ada_clf), (‘xgb’, xgb_clf), (‘et’, et_clf), (‘gb’, gb_clf)],
    voting=’soft’)
    soft_voting_clf.fit(X_train, y_train)

這篇文章總結(jié)了分類器的使用，調(diào)整分類器和結(jié)合多個分類器的結(jié)果的過程。請將此作為一個參考點，詳細探討每個領(lǐng)域。

本文名稱：機器學(xué)習(xí)：使用Python進行分類
標題路徑：http://www.5511xx.com/article/dhgessc.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

分類

訓(xùn)練和評估分類器

調(diào)整分類器

投票分類器

其他資訊