亚洲另类中文自拍,亚洲日韩aV日操,日本女a优一区三区视频

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案

如何快速從深層嵌套JSON中找到特定的Key

在爬蟲開發(fā)的過程中，我們經(jīng)常遇到一些 Ajax 加載的接口會(huì)返回 JSON 數(shù)據(jù)。如下圖所示，是 Twitter 的用戶時(shí)間線接口，返回了一段3000多行的深層嵌套 JSON：

為焉耆等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計(jì)制作服務(wù)，及焉耆網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為做網(wǎng)站、成都網(wǎng)站制作、焉耆網(wǎng)站設(shè)計(jì)，以傳統(tǒng)方式定制建設(shè)網(wǎng)站，并提供域名空間備案等一條龍服務(wù)，秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求，就會(huì)得到認(rèn)可，從而選擇與我們長(zhǎng)期合作。這樣，我們也可以走得更遠(yuǎn)！

其中的cursor這個(gè)字段，是請(qǐng)求下一頁的必要字段，我必須把它的 value 值讀取出來，拼接到請(qǐng)求 URL 中，才能請(qǐng)求下一頁的內(nèi)容。

現(xiàn)在問題來了，cursor字段在這個(gè) JSON 里面的哪個(gè)位置?從最外層開始，我應(yīng)該怎么樣才能讀取到最里面的這個(gè)cursor中的value字段的值?

我知道已經(jīng)有一些第三方庫可以直接根據(jù)字段名讀取 JSON 內(nèi)部任意深度的值，不過用別人的東西總沒有自己寫一個(gè)輪子來得過癮。所以今天我們自己來手寫一個(gè)模塊，我把他叫做JsonPathFinder，傳入一個(gè) JSON 字符串和需要讀取的字段名，返回從最外層開始直到這個(gè)字段的路徑。

效果演示

我們用 Python 之父龜叔的 Twitter 時(shí)間線來作為演示，運(yùn)行以后，效果如下圖所示：

可以看到，從最外層開始一路讀到cursor字段，需要經(jīng)過非常多的字段名，對(duì)應(yīng)到 JSON 中，如下圖所示：

由于entries 字段列表中一共有20個(gè)元素，所以這里的18、19實(shí)際上對(duì)應(yīng)了倒數(shù)第二條和倒數(shù)第一條數(shù)據(jù)。其中，倒數(shù)第二條的 cursor 對(duì)應(yīng)的是本頁第一條推文，而倒數(shù)第一條對(duì)應(yīng)的是本頁最后一條推文。所以當(dāng)我們要往后翻頁的時(shí)候，應(yīng)該用的是倒數(shù)第一條的 cursor。

我們?cè)囍鴣碜x取一下結(jié)果：

非常輕松地獲取到了數(shù)據(jù)。不需要再肉眼在 JSON 中尋找字段了。

原理分析

JsonPathFinder 的原理并不復(fù)雜，全部代碼加上空行，一共只有32行，如下圖所示：

因?yàn)橐粋€(gè)字段在 JSON 中可能出現(xiàn)很多次，所以find_one方法返回從外層到目標(biāo)字段的第一條路徑。而find_all方法返回從外層到目標(biāo)字段的所有路徑。

而核心算法，就是iter_node方法。在把 JSON 字符串轉(zhuǎn)成 Python 的字典或者列表以后，這個(gè)方法使用深度優(yōu)先遍歷整個(gè)數(shù)據(jù)，記錄它走過的每一個(gè)字段，如果遇到列表就把列表的索引作為 Key。直到遍歷到目標(biāo)字段，或者某個(gè)字段的值不是列表也不是字典時(shí)結(jié)束本條路徑，繼續(xù)遍歷下個(gè)節(jié)點(diǎn)。

代碼第10-15行，分別對(duì)列表和字典進(jìn)行處理。對(duì)于字典來說，我們分離 key 和 value，寫作：

 
 
 
 
  
  
  
  for key, value in xxx.items():
  
  
  
     ...

對(duì)于列表，我們分離索引和元素，寫作：

 
 
 
 
  
  
  
  for index, element in enumerate(xxx):
  
  
  
     ...

所以如在第11和第13行，使用生成器推導(dǎo)式分別處理字典和列表，這樣得到的key_value_iter生成器對(duì)象，就可以在第16行被相同的 for 循環(huán)迭代。

我們知道，在 Python 里面可以迭代的對(duì)象除了字典和列表以外，還有很多其他的對(duì)象，不過我這里只處理了字典和列表。大家也可以試一試修改10-15行的條件判斷，增加對(duì)其他可迭代對(duì)象的處理邏輯。

代碼第16-22行，對(duì)處理以后的 key-value 進(jìn)行迭代。首先記錄到當(dāng)前字段為止的迭代路徑到current_path列表中。然后判斷當(dāng)前字段是不是目標(biāo)字段。如果是，那么把當(dāng)前的路徑通過 yield 拋出來。如果當(dāng)前路徑的值是列表或者字典，那么把這個(gè)值遞歸傳入 iter_node 方法，進(jìn)一步檢查內(nèi)部還有沒有目標(biāo)字段。需要注意的是，無論當(dāng)前字段是不是目標(biāo)字段，只要它的值是列表或者字典，都需要繼續(xù)迭代。因?yàn)榧词巩?dāng)前字段的名字是目標(biāo)字段，但也許它內(nèi)部還有某個(gè)子孫字段的字段名也是目標(biāo)字段名。

對(duì)于普通函數(shù)來說，要遞歸調(diào)用，直接return 當(dāng)前函數(shù)(參數(shù))就可以了。但是對(duì)于生成器來說，要遞歸調(diào)用，就需要使用yield from 當(dāng)前函數(shù)名(參數(shù))。

由于iter_node方法返回的是一個(gè)生成器對(duì)象，在 find_one和find_all方法中，for 循環(huán)每一次迭代，都能拿到一條從20行拋出來的到目標(biāo)字段的路徑。而在find_one方法中，當(dāng)我們拿到第一條路徑時(shí)，不再繼續(xù)迭代，那么就可以節(jié)省大量的時(shí)間，減少迭代次數(shù)。

正確使用

有了這個(gè)工具以后，我們可以直接用它來解析數(shù)據(jù)，也可以用來輔助分析數(shù)據(jù)。例如，Twitter 時(shí)間線的正文是在full_text中，我可以直接用 JsonPathFinder 獲取所有的正文：

但有時(shí)候，我們除了獲取正文外，還需要每一條推文的其他信息，如下圖所示：

可以看到，這種情況下，我們可以先獲取從外層到full_text的路徑列表，然后再人工對(duì)列表進(jìn)行一些加工，輔助開發(fā)：

從打印出來的路徑列表里面可以看到，我們只需要獲取globalObjects->tweets就可以了。它的值是20個(gè)字典，每個(gè)字典的 Key 是推文的 ID，Value 是推文的詳情。這個(gè)時(shí)候，我們?cè)偃斯とバ薷囊幌麓a，也能方便地提取一條推文的全部字段。

當(dāng)前標(biāo)題：如何快速從深層嵌套JSON中找到特定的Key
鏈接地址：http://www.5511xx.com/article/djpeooi.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

其他資訊