免费无码黄片直接看,免费高清视频黄片,婷婷五月天亚洲在线

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

Python網(wǎng)頁爬蟲制作DIY實際操作

Python網(wǎng)頁爬蟲在實際的使用中需要我們注意很多的地方，其實有的東西大家看著難但是在實際操作起來的話都很簡單。下面我們就來學習下如何自己動手編寫一個Python網(wǎng)頁爬蟲。

創(chuàng)新互聯(lián)-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設、高性價比塔河網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式塔河網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設找我們，業(yè)務覆蓋塔河地區(qū)。費用合理售后完善，10多年實體公司更值得信賴。

這個程序因為主頁面鏈接到的頁面都在同一個目錄下，結構很簡單，只有一層。因此寫了一些硬編碼做鏈接地址的分析。
代碼如下：

 
 
   
  
  #!/usr/bin/env python    
  
  # -*- coding: GBK -*-    
  
  import urllib    
  
  from sgmllib import SGMLParser    
  
  class URLLister(SGMLParser):    
  
  def reset(self):    
  
  SGMLParser.reset(self)    
  
  self.urls = []    
  
  def start_a(self, attrs):    
  
  href = [v for k, v in attrs if k == 'href']    
  
  if href:    
  
  self.urls.extend(href)    
  
  url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJi
ngShuoShenMo/'   
  
  sock = urllib.urlopen(url)    
  
  htmlSource = sock.read()    
  
  sock.close()    
  
  #print htmlSource    
  
  f = file('jingangjing.html', 'w')    
  
  f.write(htmlSource)    
  
  f.close()    
  
  mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGan
gJingShuoShenMo/'   
  
  parser = URLLister()    
  
  parser.feed(htmlSource)    
  
  for url in parser.urls:    
  
  myurl = mypath + url    
  
  print "get: " + myurl    
  
  sock2 = urllib.urlopen(myurl)    
  
  html2 = sock2.read()    
  
  sock2.close()    
  
  # 保存到文件    
  
  print "save as: " + url    
  
  f2 = file(url, 'w')    
  
  f2.write(html2)    
  
  f2.close()

以上就是對Python網(wǎng)頁爬蟲在編寫過程中的詳細介紹。

【編輯推薦】

Python腳本解決在游戲開發(fā)中的困難
簡述Python語言經(jīng)驗總結
Python對象主要特征解析
Python顯示UTF-8中文文本具體操作方法講解
Python綁定C++程序具體實現(xiàn)方法淺談

當前標題：Python網(wǎng)頁爬蟲制作DIY實際操作
路徑分享：http://www.5511xx.com/article/cdggcci.html

新聞中心

其他資訊