新聞中心
昨日,在亮馬河大廈舉辦了2011大數(shù)據(jù)世界論壇。

成都創(chuàng)新互聯(lián)專注于龍灣網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。 熱誠為您提供龍灣營(yíng)銷型網(wǎng)站建設(shè),龍灣網(wǎng)站制作、龍灣網(wǎng)頁設(shè)計(jì)、龍灣網(wǎng)站官網(wǎng)定制、微信小程序服務(wù),打造龍灣網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供龍灣網(wǎng)站排名全網(wǎng)營(yíng)銷落地服務(wù)。
大會(huì)現(xiàn)場(chǎng)
覆蓋金融,電信,政府,醫(yī)療,能源,公共事業(yè),零售,物流等行業(yè)對(duì)大數(shù)據(jù)存儲(chǔ),挖掘均有巨大需求,本次論壇集各家所長(zhǎng),共同解決一個(gè)問題:面對(duì)海量數(shù)據(jù),你準(zhǔn)備好了嗎?
從幾拍字節(jié)的數(shù)據(jù)倉庫到社交媒體數(shù)據(jù),從基于云計(jì)算的應(yīng)用程序到傳感器和移動(dòng)設(shè)備,從電子商務(wù)處理到地理空間信息,海量數(shù)據(jù)的時(shí)代已經(jīng)來臨。在已經(jīng)到來的大數(shù)據(jù)量時(shí)代,數(shù)據(jù)存儲(chǔ)發(fā)生了什么變化嗎?是的,發(fā)生了巨大的變化,存儲(chǔ)形式仿佛轉(zhuǎn)了一個(gè)圈,又回到了文件式存儲(chǔ)。據(jù)統(tǒng)計(jì),包括視頻、音頻、圖片、微博等在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)將占企業(yè)數(shù)據(jù)的80%左右,到2012年數(shù)據(jù)存儲(chǔ)基本會(huì)是以文件形式存儲(chǔ)。
在這個(gè)大時(shí)代來臨之時(shí),您是否還記得1TB的數(shù)據(jù)倉庫被視為大儲(chǔ)量的年代?如今,您只需要付出不到100美元就可以從當(dāng)?shù)亓闶凵烫庂徺I到存儲(chǔ)量為1TB的存儲(chǔ)設(shè)備,而許多數(shù)據(jù)倉庫的存儲(chǔ)量已經(jīng)超過了拍字節(jié)。
不過持續(xù)增長(zhǎng)的數(shù)據(jù)量?jī)H僅是海量數(shù)據(jù)的一半構(gòu)成內(nèi)容,海量數(shù)據(jù)同時(shí)帶來了數(shù)據(jù)的多樣性,復(fù)雜性以及速率的大規(guī)模增長(zhǎng)。這種變化具有破壞力嗎?是的,它具有破壞力,你做好準(zhǔn)備迎戰(zhàn)它,擊敗它了嗎?這是一次商機(jī)嗎?是的,這是一次商機(jī),那么你做好準(zhǔn)備去利用它了嗎?該如何擊敗,該如何利用?答案只有一個(gè):數(shù)據(jù)挖掘,挖掘出商機(jī)無限,挖掘出潛在信息。
在大眾點(diǎn)評(píng)網(wǎng)CEO張濤看來,數(shù)據(jù)挖掘是一家互聯(lián)網(wǎng)公司必不可少的。實(shí)際上,不只是互聯(lián)網(wǎng)公司,數(shù)據(jù)挖掘?qū)τ谌我庖患夜径际潜夭豢缮俚摹?/p>
#p#
什么是數(shù)據(jù)挖掘?
簡(jiǎn)單地說,數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。該術(shù)語實(shí)際上有點(diǎn)用詞不當(dāng)。注意,從礦石或砂子挖掘黃金稱作黃金挖掘,而不是砂石挖掘。因 此,數(shù)據(jù)挖掘應(yīng)當(dāng)更正確地命名為“從數(shù)據(jù)中挖掘知識(shí)”,遺憾的是這個(gè)詞有點(diǎn)長(zhǎng)?!爸R(shí)挖掘”是一個(gè)較短的術(shù)語,但不能反映從大量數(shù)據(jù)中挖掘。畢竟,挖掘是 一個(gè)很生動(dòng)的術(shù)語,它抓住了從大量的、未加工的材料中發(fā)現(xiàn)少量寶貴金塊這一過程的特點(diǎn)(見圖1-3)。這樣,“數(shù)據(jù)挖掘”成了流行術(shù)語。還有一些術(shù)語具有 和數(shù)據(jù)挖掘類似但稍微不同的含義,如從數(shù)據(jù)中挖掘知識(shí)、知識(shí)提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。
許多人把數(shù)據(jù)挖掘視為另一個(gè)常用的術(shù)語數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)或KDD的同義詞,而另一些人只是把數(shù)據(jù)挖掘視為知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。知識(shí)發(fā)現(xiàn)過程如圖1-4所示,由以下步驟的迭代序列組成:
1. 數(shù)據(jù)清理(消除噪聲和不一致數(shù)據(jù))
2. 數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)
3. 數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù))
圖1-3 數(shù)據(jù)挖掘:在你的數(shù)據(jù)中搜索知識(shí)(有趣的模式)
圖1-4 數(shù)據(jù)挖掘作為知識(shí)發(fā)現(xiàn)過程的一個(gè)步驟
4. 數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作)
5. 數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式)
6. 模式評(píng)估(根據(jù)某種興趣度度量,識(shí)別表示知識(shí)的真正有趣的模式;見1.5節(jié))
7. 知識(shí)表示(使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí))
步驟1~4是數(shù)據(jù)預(yù)處理的不同形式,為挖掘準(zhǔn)備數(shù)據(jù)。數(shù)據(jù)挖掘步驟可能與用戶或知識(shí)庫交互。有趣的模式提供給用戶,或作為新的知識(shí)存放在知識(shí)庫中。注意,根據(jù)這種觀點(diǎn),數(shù)據(jù)挖掘只是整個(gè)過程中的一個(gè)步驟,盡管是最重要的步驟,因?yàn)樗l(fā)現(xiàn)用來評(píng)估的隱藏的模式。
我們同意數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過程的一個(gè)步驟。然而,在產(chǎn)業(yè)界、媒體和數(shù)據(jù)庫研究界,術(shù)語數(shù)據(jù)挖掘比長(zhǎng)術(shù)語從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)更流行。因此,本書選用術(shù) 語數(shù)據(jù)挖掘。我們采用數(shù)據(jù)挖掘功能的廣義觀點(diǎn):數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣知識(shí)的過程?;谶@種觀點(diǎn),典型的 數(shù)據(jù)挖掘系統(tǒng)具有以下主要成分(見圖1-5):
圖1-5 典型數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)
#p#
數(shù)據(jù)挖掘到底能做什么?
數(shù)據(jù)挖掘能做以下七種不同事情(分析方法):
- 分類 (Classification)
- 估值(Estimation)
- 預(yù)言(Prediction)
- 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
- 聚集(Clustering)
- 描述和可視化(Description and Visualization)
- 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
數(shù)據(jù)挖掘中的算法
“數(shù)據(jù)挖掘算法”是創(chuàng)建數(shù)據(jù)挖掘模型的機(jī)制。為了創(chuàng)建模型,算法將首先分析一組數(shù)據(jù)并查找特定模式和趨勢(shì)。算法使用此分析的結(jié)果來定義挖掘模型的參數(shù)。然后,這些參數(shù)應(yīng)用于整個(gè)數(shù)據(jù)集,以便提取可行模式和詳細(xì)統(tǒng)計(jì)信息。
算法創(chuàng)建的挖掘模型可以采用多種形式,這包括:
-
說明在交易中如何將產(chǎn)品分組到一起的一組規(guī)則。
-
預(yù)測(cè)特定用戶是否會(huì)購買某個(gè)產(chǎn)品的決策樹。
-
預(yù)測(cè)銷量的數(shù)學(xué)模型。
-
說明數(shù)據(jù)集中的事例如何相關(guān)的一組分類。
【編輯推薦】
- 初探數(shù)據(jù)挖掘中的十大經(jīng)典算法
- 為您介紹幾款開源的數(shù)據(jù)挖掘工具
數(shù)據(jù)挖掘算法的類型
包括了以下算法類型:
- 分類算法基于數(shù)據(jù)集中的其他屬性預(yù)測(cè)一個(gè)或多個(gè)離散變量。
- 回歸算法基于數(shù)據(jù)集中的其他屬性預(yù)測(cè)一個(gè)或多個(gè)連續(xù)變量,如利潤(rùn)或虧損。
- 分割算法將數(shù)據(jù)劃分為組或分類,這些組或分類的項(xiàng)具有相似屬性。
- 關(guān)聯(lián)算法查找數(shù)據(jù)集中的不同屬性之間的相關(guān)性。這類算法最常見的應(yīng)用是創(chuàng)建可用于市場(chǎng)籃分析的關(guān)聯(lián)規(guī)則。
- 順序分析算法匯總數(shù)據(jù)中的常見順序或事件,如 Web 路徑流。
數(shù)據(jù)挖掘,越來越多的體現(xiàn)在企業(yè)的數(shù)據(jù)報(bào)表上,也會(huì)為我們帶來越來越明顯的效益。所以,您做好準(zhǔn)備了嗎?做好準(zhǔn)備迎接新的時(shí)代,利用多樣化數(shù)據(jù)的準(zhǔn)備了嗎?
【編輯推薦】
- BI應(yīng)用:數(shù)據(jù)分析和數(shù)據(jù)挖掘時(shí)代來臨
- 初探數(shù)據(jù)挖掘中的十大經(jīng)典算法
- 為您介紹幾款開源的數(shù)據(jù)挖掘工具
網(wǎng)頁名稱:大數(shù)據(jù)時(shí)代已來臨,你準(zhǔn)備好了嗎?
網(wǎng)頁路徑:http://www.5511xx.com/article/cdecpds.html


咨詢
建站咨詢
