操人人操人妻色婷婷久久,在线五A级毛片,五月天亚洲91

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

Selenium與數(shù)據(jù)庫：有效獲取表格數(shù)據(jù)(selenium獲取表格數(shù)據(jù)庫)

Selenium是一個(gè)廣泛使用的自動(dòng)化測試框架，主要用于Web應(yīng)用程序測試。然而，Selenium的應(yīng)用領(lǐng)域不僅僅限于測試，它也可以被用來抽取或提取一個(gè)或多個(gè)網(wǎng)頁上的數(shù)據(jù)。而在這個(gè)過程中，數(shù)據(jù)庫的應(yīng)用也變得非常重要。

在此文中，我們將探討如何使用Selenium和數(shù)據(jù)庫結(jié)合起來，有效地從表格中獲取數(shù)據(jù)。

之一步：打開網(wǎng)頁

最初，我們需要使用Selenium打開一個(gè)網(wǎng)頁。我們可使用Python API和web驅(qū)動(dòng)程序來做到這一點(diǎn)。例如，對(duì)于Chrome瀏覽器，我們可以使用ChromeDriver。

下面是一段用Python來打開谷歌瀏覽器網(wǎng)站的例子：

“`

from selenium import webdriver

driver = webdriver.Chrome(“/usr/lib/chromium-browser/chromedriver”)

driver.get(“https://www.google.com/”)

“`

你將需要手動(dòng)安裝ChromeDriver，以便在上面的代碼中使用它。如果已經(jīng)安裝了，請(qǐng)確保指定了正確的路徑。

第二步：定位數(shù)據(jù)表格

一旦網(wǎng)頁被加載進(jìn)來，我們就需要定位表格，從而能夠提取數(shù)據(jù)。對(duì)此，我們可以使用Selenium提供的不同方式。

例如，如果表格帶有唯一的id，您可以使用find_element_by_id（）和它的標(biāo)識(shí)符，如下所示：

“`

table_element = driver.find_element_by_id(“mytable”)

“`

如果表格沒有id，但帶有唯一的類，可以使用find_element_by_class_name（）和類名來定位表格：

“`

table_element = driver.find_element_by_class_name(“mytableclass”)

“`

第三步：提取數(shù)據(jù)

在確定表格位置后，接下來需要從表格中提取數(shù)據(jù)了。雖然有多種方法可以做到這一點(diǎn)，但使用Pandas庫是最簡單的。

您需要使用Selenium提供的方法將數(shù)據(jù)提取到Pandas中。這可以通過以下方式實(shí)現(xiàn)：

“`

import pandas as pd

table_html = table_element.get_attribute(‘outerHTML’)

df = pd.read_html(table_html)[0]

“`

這將使Selenium將表格HTML提取并將其放入變量table_html中。然后，Pandas使用這個(gè)HTML把表格轉(zhuǎn)換為數(shù)據(jù)框?qū)ο骴f。

最終，您可以將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫中。在本例中，我們將使用SQLite數(shù)據(jù)庫。

要使用Python的內(nèi)置sqlite3模塊連接到數(shù)據(jù)庫：

“`

import sqlite3

conn = sqlite3.connect(‘mydb.sqlite’)

“`

隨后，將Pandas數(shù)據(jù)框?qū)ο髮?dǎo)出到數(shù)據(jù)庫中：

“`

df.to_sql(‘mytable’, con=conn, if_exists=’replace’)

“`

這將創(chuàng)建一個(gè)名為“mytable”的表，其中包含從網(wǎng)頁中提取的數(shù)據(jù)。

使用Selenium和數(shù)據(jù)庫結(jié)合，可以非常輕松地從表格中提取數(shù)據(jù)。通過Pandas將網(wǎng)頁中的表格數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫中，您可以輕松地進(jìn)行分析、可視化和提取調(diào)用。而通過使用Selenium作為Web自動(dòng)化測試框架，可節(jié)省時(shí)間和精力，讓方法變得更加高效。

成都網(wǎng)站建設(shè)公司-創(chuàng)新互聯(lián)為您提供網(wǎng)站建設(shè)、網(wǎng)站制作、網(wǎng)頁設(shè)計(jì)及定制高端網(wǎng)站建設(shè)服務(wù)！

instrumentation test 什么時(shí)候調(diào)用setup teardown

這個(gè)問題出現(xiàn)在這種情況，你的每個(gè)testCase都需要使用某一種初始化比較耗時(shí)的對(duì)象（資源），舉例如數(shù)據(jù)枯神庫連接、Spring Context。我們遇到的問題是Selenium測試中開啟和關(guān)閉瀏覽器，如果一個(gè)test啟動(dòng)關(guān)閉（我們的程序還需要登錄和注銷），這樣測試的時(shí)間會(huì) 拖的很長，給持續(xù)集成帶來了困難。

所以，我們需要在每組不會(huì)沖突的test中間共享一個(gè)瀏覽器窗口，這樣也就需要一個(gè)全局的setUp和 tearDown。問題是JUnit 3.8.1里面的setUp和tearDown是在每個(gè)test之前和之后運(yùn)行的，如果在里面初始化沒隱虧和關(guān)閉瀏覽器就會(huì)造成上面所說的問題。要解決它，就產(chǎn) 生了如下3種思路：

1、升級(jí)，使用JUnit4

JUnit4從TestNG里面吸取了兩個(gè)注釋：@BeforeClass和 @AfterClass

用它們注釋過的方法就會(huì)只初始化一次，完全符合我們的需求。

public class SeleniumTestCase extends SeleneseTestCase4 {

protected static final Log log = LogFactory.getLog(SeleniumTestCase.class);

protected static Selenium selenium = null;

@BeforeClass

public static void startSelenium() throws Exception {

log.debug(“Starting Selenium”);

selenium = SeleniumSession.getCurrentSession().getSelenium();

}

@AfterClass

public static void stopSelenium() throws Exception {

log.debug(“Stoping Selenium”);

selenium.stop();

}

這個(gè)里面的selenium = SeleniumSession.getCurrentSession().getSelenium();其實(shí)是個(gè)singleton，之一次open new，后來就直接返回selenium的instance（具體參考其它文章）。

這樣做非常舒服，因?yàn)橥耆皇荰rick，而是新的 feature，用起來踏實(shí)。這樣，這個(gè)類的所有@Test就會(huì)公用一個(gè)selenium打開的瀏覽器了。

那么缺點(diǎn)是什么呢？缺點(diǎn)是放到CI環(huán)境的時(shí)候如果使用我們習(xí)慣的Ant寫執(zhí)行腳本的話必須將Ant升級(jí)到1.7Beta3，因?yàn)锳nt 1.6.5的Junit task不支持JUnit4……當(dāng)然升級(jí)并不會(huì)帶來代碼的變化，但是問題在于Ant 1.7還是Beta，而且JUnit4需要JDK5的Annotation，你的PM估計(jì)要撇嘴了

2、JVM級(jí)別鉤子法

因?yàn)镴VM支持關(guān)閉時(shí)執(zhí)行制定代碼的鉤子，而static代碼會(huì)在類初始化時(shí)執(zhí)行，再加上Ant調(diào)用的是類似命令行的java命令，實(shí)際上每一個(gè)測試運(yùn)行在一個(gè)完整的JVM啟動(dòng)關(guān)閉周期攜擾里面，所以也就產(chǎn)生了這種解決方案。

這個(gè)方案來自taowen同學(xué)的兩則Selenium經(jīng)驗(yàn)。

代碼我恢復(fù)了一下，大概是這樣：

public abstract class SomeTestCase extends TestCase {

static {

// perform the “global” set up logic

//這里的代碼會(huì)在類初始化時(shí)執(zhí)行，所以相當(dāng)于BeforeClass

log.debug(“Starting Selenium”);

selenium = SeleniumSession.getCurrentSession().getSelenium();

// and now register the shutdown hook for tear down logic

//將一個(gè)匿名方法寫到這里，就相當(dāng)于AfterClass

//給當(dāng)前的進(jìn)程注冊(cè)一個(gè)清理線程，當(dāng)進(jìn)程退出的時(shí)候，會(huì)執(zhí)行線程中的代碼。

Runtime.getRuntime().addShutdownHook(

new Thread(){

public void run() {

log.debug(“Stoping Selenium”);

selenium.stop();

}

);

}

這個(gè)方法挺酷的，我認(rèn)為完全可以被稱作“奇技淫巧”。缺點(diǎn)就是，有點(diǎn)不好看。

3、還有別的方法，這個(gè)來自Selenium網(wǎng)站，似乎是不錯(cuò) 的中庸方案。

import junit.framework.*;

import junit.extensions.TestSetup;

public class AllTestsOneTimeSetup {

public static Test suite() {

TestSuite suite = new TestSuite();

suite.addTest(SomeTest.suite());

suite.addTest(AnotherTest.suite());

TestSetup wrapper = new TestSetup(suite) {

protected void setUp() {

oneTimeSetUp();

}

protected void tearDown() {

oneTimeTearDown();

}

};

return wrapper;

}

public static void oneTimeSetUp() {

// one-time initialization code

}

public static void oneTimeTearDown() {

// one-time cleanup code

}

Python中的爬蟲框架有哪些呢？

實(shí)現(xiàn)爬蟲技術(shù)的編程環(huán)境有很多種，Java、Python、C++等都可以用來爬蟲。但很多人選擇Python來寫爬蟲，為什么呢？因?yàn)镻ython確實(shí)很適合做爬蟲，豐富的第三方庫十分強(qiáng)大，簡單幾行代碼便可實(shí)現(xiàn)你想要的功能。更重要的，Python也是數(shù)據(jù)挖掘和分析的好能手。那么，Python爬蟲一般用什么框架比較好？

一般來講，只有在遇到比較大型的需求時(shí)，才會(huì)使用Python爬蟲框架。這樣的做的主要目的，是為了方便管理以及擴(kuò)展。本文我將向大家推薦十個(gè)Python爬蟲框架。

1、Scrapy：Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù)，提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。可桐搜晌以應(yīng)用在包括數(shù)據(jù)挖掘，信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列的程序中。它是很強(qiáng)大的爬蟲框架，可以滿足簡單的頁面爬取，比如可以明確獲知url pattern的情況。用這個(gè)框架可以輕松爬下來如亞馬遜商品信息之類的數(shù)據(jù)。但是對(duì)于稍微復(fù)雜一點(diǎn)的頁面，如weibo的頁面信息，這個(gè)框架就滿足不了需求了。它的特性有：HTML, XML源數(shù)據(jù) 選擇及提取的內(nèi)置支持；提供了一系列在spider之間共享的可復(fù)用的過濾器(即 Item Loaders)，對(duì)智能處理爬取數(shù)據(jù)提供了內(nèi)置支持。

2、Crawley：高速爬取對(duì)應(yīng)網(wǎng)站的內(nèi)容，支持關(guān)系和非關(guān)系數(shù)據(jù)庫，數(shù)據(jù)可以導(dǎo)出為ON、XML等。

3、Portia：是一個(gè)開源可視化爬蟲工具，可讓使用者在不需要任何編程知識(shí)的情況下爬取網(wǎng)站！簡單地注釋自己感興趣的頁面，Portia將創(chuàng)建一個(gè)蜘蛛來從類似的頁面提取數(shù)據(jù)。簡單來講，它是基于scrapy內(nèi)核；可視化爬取內(nèi)容，不需要任何開發(fā)專業(yè)知識(shí)；動(dòng)態(tài)匹配相同模板的內(nèi)容。

4、newspaper：可以用來提取新聞、文章和內(nèi)容分析。使用多線程，支持10多種語言等。作者從requests庫的簡潔與強(qiáng)大得到靈感，使用Python開發(fā)的可用于提取文章內(nèi)容的程序。支持10多種語言并且所有的都是unicode編碼。

5、Python-goose：Java寫的文章提取工具。Python-goose框架可提取的信息包括：文章主體內(nèi)容、文章主要圖片、文章中嵌入的任何Youtube/Vimeo視頻、元描述、元標(biāo)簽。

6、Beautiful Soup：名氣大，整合了一些常用爬蟲需求。它是一個(gè)可以從HTML或XML文件中提取漏螞數(shù)據(jù)的Python庫。它能夠通過你喜歡的轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航,查找,修改文檔的方式.Beautiful Soup會(huì)幫你節(jié)省數(shù)小時(shí)甚至數(shù)天的工作時(shí)間。Beautiful Soup的缺點(diǎn)是不能加載。

7、mechanize：它的優(yōu)點(diǎn)是可以加載。當(dāng)然它也有缺點(diǎn)，比如文檔嚴(yán)重缺失。不過通過官方的example以及人肉嘗試的方法，還是勉強(qiáng)能用的。

8、selenium：這是一個(gè)調(diào)用瀏覽器的driver，通過這個(gè)庫你可以直接調(diào)用瀏覽器完成某些操作，比如輸入驗(yàn)證碼。Selenium是自動(dòng)化測試工具，它支持各種瀏覽器，包括 Chrome，Safari，F(xiàn)irefox等主流界面式瀏覽器，如果在這些瀏覽器里面安裝一個(gè) Selenium 的插件，可以方便地實(shí)現(xiàn)Web界面的測試. Selenium支持瀏覽器驅(qū)動(dòng)。Selenium支持多種語言開發(fā)，比如 Java，C，Ruby等等，Phantom 用來渲染解析，Selenium 用來驅(qū)動(dòng)以及與Python的對(duì)接，Python進(jìn)行后期的處理。

9、cola：是一個(gè)分布式的爬蟲框架，對(duì)于用戶來說，只需編寫幾個(gè)特定的函數(shù)，而無需關(guān)注分布式運(yùn)行的細(xì)節(jié)。任務(wù)會(huì)自動(dòng)分配到多臺(tái)機(jī)器上，整個(gè)過程對(duì)用戶是透明的。項(xiàng)目整體設(shè)計(jì)有點(diǎn)糟，模塊間耦合度較高。

10、PySpider：一個(gè)國人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的WebUI。采用Python語言編寫，分布式架構(gòu)，支持多種數(shù)據(jù)庫后端，強(qiáng)大的WebUI支持腳本編輯器，任務(wù)監(jiān)視器，項(xiàng)目管理器以及結(jié)果局鋒查看器。Python腳本控制，可以用任何你喜歡的html解析包。

selenium 獲取表格數(shù)據(jù)庫的介紹就聊到這里吧，感謝你花時(shí)間閱讀本站內(nèi)容，更多關(guān)于selenium 獲取表格數(shù)據(jù)庫,Selenium與數(shù)據(jù)庫：有效獲取表格數(shù)據(jù),instrumentation test 什么時(shí)候調(diào)用setup teardown,Python中的爬蟲框架有哪些呢？的信息別忘了在本站進(jìn)行查找喔。

創(chuàng)新互聯(lián)-老牌IDC、云計(jì)算及IT信息化服務(wù)領(lǐng)域的服務(wù)供應(yīng)商，業(yè)務(wù)涵蓋IDC（互聯(lián)網(wǎng)數(shù)據(jù)中心）服務(wù)、云計(jì)算服務(wù)、IT信息化、AI算力租賃平臺(tái)（智算云），軟件開發(fā)，網(wǎng)站建設(shè)，咨詢熱線:028-86922220

網(wǎng)站題目：Selenium與數(shù)據(jù)庫：有效獲取表格數(shù)據(jù)(selenium獲取表格數(shù)據(jù)庫)
地址分享：http://www.5511xx.com/article/dpdgjoo.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

instrumentation test 什么時(shí)候調(diào)用setup teardown

Python中的爬蟲框架有哪些呢？

其他資訊

新聞中心

instrumentation test 什么時(shí)候調(diào)用setup teardown

Python中的爬蟲框架有哪些呢？

其他資訊

Python中的爬蟲框架有哪些呢？