日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關咨詢
選擇下列產品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側工具欄

新聞中心

這里有您想知道的互聯(lián)網營銷解決方案
一日一技:如何提取網頁中的日期?

最近我發(fā)現(xiàn)Python的一個第三方庫,叫做htmldate,經過測試,它提取新聞的發(fā)布時間比較準確。我們來看看這個庫怎么使用。首先使用pip安裝:

創(chuàng)新互聯(lián)建站主營云夢網站建設的網絡公司,主營網站建設方案,成都app開發(fā),云夢h5微信小程序開發(fā)搭建,云夢網站營銷推廣歡迎云夢等地區(qū)企業(yè)咨詢

python3 -m pip install htmldate

然后,我們使用Requests或者Selenium獲得網站的源代碼:

import requests
from htmldate import find_date
html = requests.get('https://www.kingname.info/2022/03/09/this-is-gnelist/').content.decode('utf-8')
date = find_date(html)
print(date)

運行效果如下圖所示:

而這篇文章的發(fā)布時間,確實是3月9號:

我們再用網易新聞來看一下,相互激勵 增進友誼(精彩綻放) |殘奧|中國代表團|單板滑雪|奪金_網易政務[2] 這篇新聞對應的發(fā)布時間如下圖所示:

現(xiàn)在我們用Requests獲得它的源代碼,然后再提取發(fā)布時間:

發(fā)布日期確實對了,但是后面的時間怎么丟失了呢?如果想把時分秒保留下來,可以增加一個參數(shù)outputformat,它的值就是你在datetime.strftime里面輸入的值:

find_date(html, outputformat='%Y-%m-%d %H:%M:%S')

運行效果如下圖所示:

find_date的參數(shù),除了網頁源代碼外,還可以傳入URL,或者是lxml里面的Dom對象,例如:

from lxml.html import fromstring

selector = fromstring(html)
date = find_date(selector)

參考文獻[1] Gne: https://github.com/GeneralNewsExtractor/GeneralNewsExtractor

[2] 相互激勵 增進友誼(精彩綻放) |殘奧|中國代表團|單板滑雪|奪金_網易政務: https://www.163.com/news/article/H28Q6NQ1000189FH.html


本文題目:一日一技:如何提取網頁中的日期?
標題URL:http://www.5511xx.com/article/dpspsdo.html