新聞中心
這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
Python實現(xiàn)網(wǎng)頁爬蟲基本實現(xiàn)代碼解讀
Python是一款功能強大的計算機程序語言,同時也可以被看做是一款面向?qū)ο蟮耐ㄓ眯驼Z言。它的功能特點比較突出,極大的方便開發(fā)人員應(yīng)用。在這里我們先來一起了解一下有關(guān)Python市縣網(wǎng)頁爬蟲的方法。

創(chuàng)新互聯(lián)建站專注于平邑企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè)公司,成都商城網(wǎng)站開發(fā)。平邑網(wǎng)站建設(shè)公司,為平邑等地區(qū)提供建站服務(wù)。全流程按需定制網(wǎng)站,專業(yè)設(shè)計,全程項目跟蹤,創(chuàng)新互聯(lián)建站專業(yè)和態(tài)度為您提供的服務(wù)
今天看到一個網(wǎng)頁,又因為在家里用電話線上網(wǎng),一直在線閱讀很麻煩。所以就寫了個簡單的程序把網(wǎng)頁抓下來離線閱讀,省點電話費:)這個程序因為主頁面鏈接到的頁面都在同一個目錄下,結(jié)構(gòu)很簡單,只有一層。因此寫了一些硬編碼做鏈接地址的分析。
Python實現(xiàn)網(wǎng)頁爬蟲代碼如下:
- #!/usr/bin/env python
- # -*- coding: GBK -*-
- import urllib
- from sgmllib import SGMLParser
- class URLLister(SGMLParser):
- def reset(self):
- SGMLParser.reset(self)
- self.urls = []
- def start_a(self, attrs):
- href = [v for k, v in attrs if k == 'href']
- if href:
- self.urls.extend(href)
- url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'
- sock = urllib.urlopen(url)
- htmlSource = sock.read()
- sock.close()
- #print htmlSource
- f = file('jingangjing.html', 'w')
- f.write(htmlSource)
- f.close()
- mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'
- parser = URLLister()
- parser.feed(htmlSource)
- for url in parser.urls:
- myurl = mypath + url
- print "get: " + myurl
- sock2 = urllib.urlopen(myurl)
- html2 = sock2.read()
- sock2.close()
- # 保存到文件
- print "save as: " + url
- f2 = file(url, 'w')
- f2.write(html2)
- f2.close()
以上就是我們?yōu)榇蠹医榻B的有關(guān)Python實現(xiàn)網(wǎng)頁爬蟲的實現(xiàn)方法。
【編輯推薦】
- 深度講述Python標準語言特性
- 深度剖析Python語言奧秘
- 探秘簡單強大的Python語言
- 對Python測試問題全解析
- 幾分鐘教會您Python程序配置問題
本文題目:Python實現(xiàn)網(wǎng)頁爬蟲基本實現(xiàn)代碼解讀
鏈接地址:http://www.5511xx.com/article/dhcgdgs.html


咨詢
建站咨詢
