日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
聊一下關(guān)于去重計數(shù)的多種實現(xiàn)方式

本文轉(zhuǎn)載自微信公眾號「數(shù)據(jù)大宇宙」,作者卡門的兒子。轉(zhuǎn)載本文請聯(lián)系數(shù)據(jù)大宇宙公眾號。

這是一個關(guān)于 pandas 從基礎(chǔ)到進(jìn)階的練習(xí)題系列,來源于 github 上的 guipsamora/pandas_exercises 。這個項目從基礎(chǔ)到進(jìn)階,可以檢驗?zāi)阌卸嗝戳私?pandas。

我會挑選一些題目,并且提供比原題庫更多的解決方法以及更詳盡的解析。

如下數(shù)據(jù):

數(shù)據(jù)描述:

  • 此數(shù)據(jù)是訂單明細(xì)表。一個訂單會包含很多明細(xì)項,表中每個樣本(每一行)表示一個明細(xì)項
  • order_id 列存在重復(fù)
  • quantity 是明細(xì)項數(shù)量

需求:數(shù)據(jù)中共有多少個訂單?

下面是答案了

方式1

因為 order_id 列是存在重復(fù)的,那么一種比較直觀的方式就是去重+計數(shù):

 
 
 
 
  1. len(df.order_id.drop_duplicates()) 
  2. 1834 
  • Series.drop_duplicates() 返回的仍然是一個 Series
  • len 函數(shù)可以計算 Series 值數(shù)量

但是你可能不知道的是,這個方式是不準(zhǔn)確的!

方式2

之所以說上一種方式是不準(zhǔn)確,是因為沒有考慮到空值的問題。

len 函數(shù)不會忽略空值(nan) ,因此如果列中有空值,那么就比正確結(jié)果數(shù)量多。

正確的做法是:

 
 
 
 
  1. len(df.order_id.drop_duplicates().dropna()) 
  • 使用 Series.dropna() 方法可以去掉 nan 值

提示:

即使列中有多個 nan ,經(jīng)過去重后只會保留一個 nan 值

方式3

實際上,pandas 本身有提供一個忽略 nan 的計數(shù)方法:

 
 
 
 
  1. df.order_id.drop_duplicates().count() 

點評:

這種方式個人認(rèn)為最合適

方式4

pandas 為列(Series)提供了一個快速匯總計數(shù)方法:

 
 
 
 
  1. df.order_id.value_counts() 

  • Series.value_counts() 相當(dāng)于 根據(jù) order id 分組,統(tǒng)計數(shù)量。并且排除 nan

這相當(dāng)于實現(xiàn)了去重,因此:

 
 
 
 
  1. df.order_id.value_counts().count() 

點評:

  • 這是原項目的解法,不太直觀,不推薦使用
  • 我本人經(jīng)常把 value_counts 方法中s的位置搞錯

不過我自制了一個方法查詢器,這樣子不至于記錯方法:


文章標(biāo)題:聊一下關(guān)于去重計數(shù)的多種實現(xiàn)方式
文章分享:http://www.5511xx.com/article/cdshgjd.html