日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關咨詢
選擇下列產品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側工具欄

新聞中心

這里有您想知道的互聯網營銷解決方案
大數據、統(tǒng)計學與機器學習是怎樣的關系

 [[405079]]

本文轉載自微信公眾號「曉陽的數據小站」,作者曉陽的數據小站。轉載本文請聯系曉陽的數據小站公眾號。

10年積累的網站制作、成都網站建設經驗,可以快速應對客戶對網站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網絡服務。我雖然不認識你,你也不認識我。但先網站策劃后付款的網站建設流程,更有錯那免費網站建設讓你可以放心的選擇與我們合作。

大數據、統(tǒng)計學與機器學習是怎樣的關系

這三個主題,都是當下熱門的概念,梳理清楚其關系,有助于在后續(xù)的學習中,有的放矢。如果只看結論,可以直接到最后一個章節(jié)。

|0x00 統(tǒng)計分析與實證研究

統(tǒng)計學是通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。

為什么要講“統(tǒng)計學”?很簡單,統(tǒng)計分析為現代科學奠定了方法論基礎,即實證研究。統(tǒng)計推斷有個基礎,研究的對象是服從某一規(guī)律法則的隨機過程,而現實觀測到的數據是從這個隨機過程產生的,這個隨機過程我們稱之為數據生成過程。統(tǒng)計學基于觀測到的數據進行建模,推斷出概率法則,便可以應用于實際場景中,如檢驗經濟學假說、評估公共政策效果等。

在統(tǒng)計建模中,一般假設的DGP(數據生成過程,Data Generating Process)的概率法則可以由唯一的數學概率模型來刻畫,模型通常將因變量與一些解釋變量或預測變量聯系起來,同時假設該數學模型的函數形式已知,但包含低維的未知參數,這是一種參數建模方法,在統(tǒng)計學中應用最為廣泛。

統(tǒng)計推斷主要目的是觀測數據、估計模型的未知參數值,將經濟理論或者假說轉化為統(tǒng)計參數假設,然后進行參數假設檢驗,并對實證結果提供經濟解釋。常見的做法,是基于一個預設的顯著性水平(如5%)判斷一個參數估計值或者參數假設在統(tǒng)計學上是否顯著。如果具有統(tǒng)計顯著性,則相應的將變量視為一個重要決定因素。

互聯網行業(yè)中,常見的A/B測試,也是為了驗證某個idea是否具備統(tǒng)計顯著性。

但以上的做法至少需要六個關鍵假設:

  • 隨機性,DGP是一個隨機過程;
  • 唯一性,DGP的概率法則由唯一的數學概率模型來刻畫;
  • 正確性,存在唯一的未知參數,使得概率模型與DGP概率法則相吻合;
  • 代表性,描述觀測數據的隨機樣本不存在樣本選擇偏差;
  • 抽樣推斷總體,使用包含DGP信息的樣本數據來推斷總體分布特征;
  • 統(tǒng)計顯著性,使用統(tǒng)計檢驗量的P值,在預設的顯著性水平(如5%)上判斷解釋變量或預測變量是否重要,并據此提供邏輯解釋。

如果以上概念非常不好理解,那么就簡單記住下面幾句:

  • 總結數據與模型;
  • 推斷結論是否合理;
  • 回答重要的社會問題;
  • 認識并改善我們日常的行為模型。

|0x01 大數據特征

通常意義上,我們可以認為大數據是繼信息革命后的第四次革命,尤其是互聯網與移動互聯網的普及、物聯網的興起,數據的增長是指數級別的。大數據最顯著的特征,是其“4V”特性,即:

  • Volume(海量性):多渠道采集的數據,包括了日志、音視頻、地理位置等信息,但存儲壓力在Hadoop之后得到緩解;
  • Velocity(高速性):大數據的產生、傳播與計算速度,是前所未有的,需要實時分析而非批量式分析,這也是Flink快速興起的緣由;
  • Variety(多樣性):大數據形式多樣,既包括了傳統(tǒng)的結構化數據,也有很多非結構化的數據,“數據湖”的出現也是為了解決非結構化數據的計算問題;
  • Veracity(真實性):大數據體量龐大,但信息密度低,因此如何進行去偽存真、有效概括并提取大數據中的有效信息,就顯得非常重要。

盡管我們能夠熟練背誦大數據的4V原理,但其背后的深刻概念與技術挑戰(zhàn),卻是一直被忽視的。從統(tǒng)計學的角度看,大數據的4V特征會有一些新的解讀。

  • Volume(海量性):海量有雙重含義,一個是大數據的樣本容量非常大,另一個是能在給定時間內從不同維度對DGP進行比較多的描述;
  • Velocity(高速性):在高頻甚至實時條件下記錄或收集數據,使得準實時的數據分析與預測成為可能;
  • Variety(多樣性):統(tǒng)計學長期以來關注結構化數據,但不同形式的數據組合在一起,將提供比傳統(tǒng)數據更多有價值的信息,如社交媒體的非結構信息;
  • Veracity(真實性):統(tǒng)計學的本質是有效地從數據中提取有價值的真實信息,雖然很多經典的統(tǒng)計方法很有用,但也需要發(fā)展新方法和新工具。

|0x02 機器學習及其本質

與統(tǒng)計學一樣,機器學習也是一種重要的大數據分析工具,盡管機器學習由于云計算的出現得到了迅速的發(fā)展和普及,但機器學習并不能替代統(tǒng)計學。例如,盡管機器學習在改善樣本外預測和模式識別方面非常有用,但統(tǒng)計學在推斷分析、因果分析、結果解釋等方面依然可以發(fā)揮很大的作用??梢哉f,機器學習與統(tǒng)計學是互補的,兩者的交叉融合可以為數據科學提供新的方法與工具。

機器學習可以分為三個主要的類別:監(jiān)督學習、無監(jiān)督學習和強化學習。

監(jiān)督學習基于訓練好的數據來構建算法,訓練數據包含一組訓練樣例,每個訓練樣例擁有一個或多個輸入與輸出,成為監(jiān)督信號,通過對目標函數的迭代優(yōu)化,監(jiān)督學習算法探索出一個函數,可用于預測新輸入所對應的輸出。

無監(jiān)督學習只在包含輸入的訓練數據中尋找結構,識別訓練數據的共性特征,并基于每個新數據所呈現或缺失的這種共性特征做出判斷。

強化學習是研究算法如何在動態(tài)環(huán)境中執(zhí)行任務,以實現累計獎勵的最大化。很多學科對這個領域有研究,比如博弈論、控制論等,在自動駕駛、人類博弈比賽等方面比較常用。

因此,從本質上說,機器學習是數據優(yōu)化問題與算法優(yōu)化問題,數學優(yōu)化為該領域提供了理論、方法與應用。

|0xFF 大數據、機器學習與統(tǒng)計學的關系

主要有四點。

第一,大數據的出現,其實并沒有改變統(tǒng)計學通過隨機抽樣來推斷總體分布特征的基本思想,需要統(tǒng)計學的基本方法,如充分性原則、因果推斷等,依然適用于大數據分析。此外,大數據提供了很多傳統(tǒng)數據所沒有的信息,大大拓展了統(tǒng)計學研究的邊界,如非結構化數據的影響,而實時數據甚至為實時預測和高頻統(tǒng)計建模帶來可能。

第二,由于樣本容量的巨大,大數據很有可能改變基于統(tǒng)計顯著性來選擇統(tǒng)計模型重要變量的習慣做法,研究范式就會從參數估計的不確定性轉為模型選擇的不確定性,這對統(tǒng)計建模與推斷會帶來新的挑戰(zhàn)。

第三,機器學習的興起得益于大數據的爆炸式發(fā)展,與統(tǒng)計學類似,機器學習也存在并且特別注重樣本偏差的問題。機器學習的本質是一個數據優(yōu)化問題及實現該優(yōu)化問題的計算機算法問題,它比統(tǒng)計學的參數建模更普遍和更靈活。

第四,在大數據的加持下,機器學習與統(tǒng)計推斷的結合,有望為數據科學提供一些新的發(fā)展方向,包括變量降維、精準預測、因果識別等方面。


當前題目:大數據、統(tǒng)計學與機器學習是怎樣的關系
當前地址:http://www.5511xx.com/article/cdspspd.html