日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
我用Python爬了一個零售網(wǎng)站,分析了一千多種葡萄酒!

本文作者是一名地地道道的程序員,最大的樂趣就是爬各種網(wǎng)站。特別是在過去的一年里,為了娛樂和利潤而爬掉了無數(shù)網(wǎng)站。從小眾到主流電子商店再到新聞媒體和文學博客,通過使用簡單的工具(如BeautifulSoup)獲得了很多有趣且干凈的數(shù)據(jù)—我也很喜歡Chrome 的Headless模式。

我們提供的服務(wù)有:網(wǎng)站設(shè)計制作、做網(wǎng)站、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認證、思南ssl等。為近千家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學管理、有技術(shù)的思南網(wǎng)站制作公司

本文,作者將分析從Greek wine e-shop商店(一個希臘葡萄酒網(wǎng)站)中獲得的數(shù)據(jù),來看看哪種葡萄酒最受歡迎。

scraper本身相當簡單,可以在GitHub頁面(https://github.com/Florents-Tselai/greek-wines-analysis)找到。作者將著重于通過使用標準的Python包對得到的數(shù)據(jù)(1125個獨特的標簽)做一些快速的探索性分析。

scraper本身暴露了一個相當簡單的API。首先,請求葡萄酒頁面的數(shù)據(jù),并將數(shù)據(jù)返回給nicedict,如下所示:

In [2]:

In [3]:

Out[3]:

然后,定義一些matplotlib。

In [4]:

加載由houseofwine_gr.dump模塊生成的數(shù)據(jù)轉(zhuǎn)儲,開發(fā)者也可以在GitHub頁面找到.json,.csv和.xlsx的數(shù)據(jù)集。

In [5]:

以下是所擁有數(shù)據(jù)的視圖:

In [6]:

Out[6]:

用np.nan替換空的字符串,使它們更容易處理 Pandas。

In [7]:

重命名一些包含特殊字符的列名,以便將它們用作本機DataFrame存儲器。

In [8]:

我們還將適當?shù)念愋头峙浣o列:

In [9]:

讓我們將color列值從希臘語翻譯成英語。

In [10]:

以下是數(shù)據(jù)集的顏色直方圖。

In [11]:

以下是每種葡萄酒的簡單指標分布情況:

In [12]:

如圖所示,Average Rating列幾乎為正態(tài)分布,μ值高達85以上。 Reddit上的Kroutoner解釋了為什么會發(fā)生這種情況(并糾正了作者以前的錯誤):

典型的葡萄酒評級是50-100,而不是0-100。所以看起來似乎只有一半分布,實際上是一個幾乎完全的分布。此外,90分以上的葡萄酒一般被認為效果更好,銷售也更好。這個事實改變了對數(shù)據(jù)的解釋,也就是說大多數(shù)葡萄酒被評為好,只有一小部分被評為非常好。

為了進一步推進,來看一下tags 列。

似乎每個標簽列表可以給出有關(guān)葡萄酒的各種屬性(品種,甜味等)的信息。接下來,作者將這些屬性分開,將tags列元素從list 轉(zhuǎn)換為set列表元素,因為這樣會使操作更簡單。也就是說,不是在一個if x in -else-try-except-IndexError中,我們將使用set操作。

現(xiàn)在,做一些簡單操作來提取關(guān)于甜度,溫和性等信息,以下信息同樣從希臘語翻譯到了英語。

以下是4個屬性中每一個屬性的直方圖:

在這一點上,開發(fā)者可以(幾乎)安全地假設(shè)所有剩下的標簽顯示每種葡萄酒的品種信息,所以定義一個新的列來存儲它們。

由于解析錯誤,列中出現(xiàn)了一些整數(shù),我們將其過濾掉。

我們也可以添加一個布爾變量varietal。酒中的混合物只有一種的稱為varietal,至少有兩種混合物的稱作blends。

對于varietal葡萄酒,我們設(shè)定了一個single_variety - 對于其他非varietal的葡萄酒來說,這個數(shù)值將是NaN。

讓我們來看看Varietal / Blend的分布是怎樣的。

這是一些指示性的情節(jié)。

In [27]:

看起來Chardonnay是最流行的品種,而Vidal和Sangiovese是最昂貴的品種。評分最高的是Malvasia,但所有品種都非常接近。

把注意力轉(zhuǎn)移到blends上,我們做了一些Numpy和Scikit-Learn來產(chǎn)生blends的矩陣。

上面的代碼簡單地從這里得到:

對此:

這些是blends中出現(xiàn)頻率最高的品種。

In [30]:

這里是一個熱圖,顯示哪些品種通?;旌显谝黄?。

In [31]:

In [32]:

如果你有興趣,歡迎來Github頁面與作者交流。


當前標題:我用Python爬了一個零售網(wǎng)站,分析了一千多種葡萄酒!
瀏覽地址:http://www.5511xx.com/article/cohoddo.html