日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關咨詢
選擇下列產(chǎn)品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
Python網(wǎng)頁爬蟲制作DIY實際操作

Python網(wǎng)頁爬蟲在實際的使用中需要我們注意很多的地方,其實有的東西大家看著難但是在實際操作起來的話都很簡單。下面我們就來學習下如何自己動手編寫一個Python網(wǎng)頁爬蟲。

創(chuàng)新互聯(lián)-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設、高性價比塔河網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式塔河網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設找我們,業(yè)務覆蓋塔河地區(qū)。費用合理售后完善,10多年實體公司更值得信賴。

這個程序因為主頁面鏈接到的頁面都在同一個目錄下,結構很簡單,只有一層。因此寫了一些硬編碼做鏈接地址的分析。
代碼如下:

 
 
 
  1. #!/usr/bin/env python  
  2. # -*- coding: GBK -*-  
  3. import urllib  
  4. from sgmllib import SGMLParser  
  5. class URLLister(SGMLParser):  
  6. def reset(self):  
  7. SGMLParser.reset(self)  
  8. self.urls = []  
  9. def start_a(self, attrs):  
  10. href = [v for k, v in attrs if k == 'href']  
  11. if href:  
  12. self.urls.extend(href)  
  13. url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJi
    ngShuoShenMo/' 
  14. sock = urllib.urlopen(url)  
  15. htmlSource = sock.read()  
  16. sock.close()  
  17. #print htmlSource  
  18. f = file('jingangjing.html', 'w')  
  19. f.write(htmlSource)  
  20. f.close()  
  21. mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGan
    gJingShuoShenMo/' 
  22. parser = URLLister()  
  23. parser.feed(htmlSource)  
  24. for url in parser.urls:  
  25. myurl = mypath + url  
  26. print "get: " + myurl  
  27. sock2 = urllib.urlopen(myurl)  
  28. html2 = sock2.read()  
  29. sock2.close()  
  30. # 保存到文件  
  31. print "save as: " + url  
  32. f2 = file(url, 'w')  
  33. f2.write(html2)  
  34. f2.close() 

以上就是對Python網(wǎng)頁爬蟲在編寫過程中的詳細介紹。

【編輯推薦】

  1. Python腳本解決在游戲開發(fā)中的困難
  2. 簡述Python語言經(jīng)驗總結
  3. Python對象主要特征解析
  4. Python顯示UTF-8中文文本具體操作方法講解
  5. Python綁定C++程序具體實現(xiàn)方法淺談

當前標題:Python網(wǎng)頁爬蟲制作DIY實際操作
路徑分享:http://www.5511xx.com/article/cdggcci.html