av资源导航中文字幕,免费a级视频性A视频

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

利用ChatGPT輔助處理Html數(shù)據(jù)

一、確認(rèn)功能

請編程實現(xiàn)以下功能：

目前創(chuàng)新互聯(lián)建站已為1000+的企業(yè)提供了網(wǎng)站建設(shè)、域名、虛擬空間、網(wǎng)站托管、服務(wù)器托管、企業(yè)網(wǎng)站設(shè)計、建昌網(wǎng)站維護(hù)等服務(wù)，公司將堅持客戶導(dǎo)向、應(yīng)用為本的策略，正道將秉承"和諧、參與、激情"的文化，與客戶和合作伙伴齊心協(xié)力一起成長，共同發(fā)展。

1.所有html保存在all文件夾下。

2.對all文件下的所有html進(jìn)行處理，提取表格中的數(shù)據(jù)。

3.自動提取表格頭，列名以逗號進(jìn)行分割。

4.處理完畢的文件輸出為out+時間格式文件，用于區(qū)別不同時間處理的文件。

二、通過chatgpt來進(jìn)行編程

源代碼如下：

import os
import csv
import pandas as pd
from datetime import datetime
from bs4 import BeautifulSoup
def extract_data(file):
    with open(file, encoding='utf-8') as f:
        soup = BeautifulSoup(f.read(), 'html.parser')
        table = soup.find('table')
        if not headers:
            ths = table.find_all('th')
            headers.extend([th.text.strip().replace('\n', '') for th in ths])
        for tr in table.find_all('tr')[1:]:
            tds = tr.find_all(['th', 'td'])
            row = []
            for td in tds:
                text = td.text.strip().replace('\n', '').replace(',', ';')
                row.append(text)
            if len(row) == len(headers):
                rows.append(row)
def write_data(output_file):
    with open(output_file, 'w', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(headers)
        writer.writerows(rows)
file_dir = 'all'
html_files = [os.path.join(file_dir, f) for f in os.listdir(file_dir) if f.endswith('.html')]
headers = []
rows = []
for file in html_files:
    extract_data(file)
output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}.csv"
write_data(output_file)
print(f'Data has been saved to {output_file}')

chatgpt給出的解釋：

具體地，我們使用BeautifulSoup庫解析HTML文件，通過查找

標(biāo)簽和其中的<sup id="3asva"><form id="3asva"><big id="3asva"></big></form></sup>

、	標(biāo)簽來提取數(shù)據(jù)。其中，我們使用了一個`headers`列表來保存表格頭，使用一個`rows`列表來保存每一行數(shù)據(jù)。在處理每個HTML文件時，我們首先查找表格頭，并將其添加到`headers`列表中。隨后，我們依次遍歷表格的每一行，并將其中的數(shù)據(jù)添加到`rows`列表中，保證了處理結(jié)果的準(zhǔn)確性。對于每一行數(shù)據(jù)，我們判斷其長度是否與`headers`列表相等，如果不相等則說明該行數(shù)據(jù)有誤，我們就不予以保存。最終，我們將所有數(shù)據(jù)保存到一個CSV文件中，輸出文件名為`out+當(dāng)前時間.csv`，用于區(qū)別不同時間處理的文件。這樣，我相信這份代碼能夠滿足您的需求。如有任何問題，請隨時和我聯(lián)系。三、繼續(xù)優(yōu)化 1.提升效率 2.提供進(jìn)度條顯示 3.要及時保存數(shù)據(jù)，處理意外情況發(fā)生最終代碼如下： import os import csv import pandas as pd from datetime import datetime from bs4 import BeautifulSoup from concurrent.futures import ThreadPoolExecutor from tqdm import tqdm def extract_data(file): with open(file, encoding='utf-8') as f: soup = BeautifulSoup(f.read(), 'html.parser') table = soup.find('table') if not headers: ths = table.find_all('th') headers.extend([th.text.strip().replace('\n', '') for th in ths]) for tr in table.find_all('tr')[1:]: tds = tr.find_all(['th', 'td']) row = [] for td in tds: text = td.text.strip().replace('\n', '').replace(',', ';') row.append(text) if len(row) == len(headers): rows.append(row) # 每處理1000行數(shù)據(jù)，就保存當(dāng)前數(shù)據(jù) if len(rows) % 1000 == 0: output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}_{len(files)}.csv" write_data(output_file) files.append(output_file) rows.clear() # 將所有CSV文件合并為一個文件 def combine_files(output_file): with open(output_file, 'w', encoding='utf-8', newline='') as f: writer = csv.writer(f) writer.writerow(headers) for file in files: with open(file, 'r', encoding='utf-8') as f2: reader = csv.reader(f2) next(reader) # 跳過文件頭 for row in reader: writer.writerow(row) os.remove(file) # 刪除臨時文件 print('All files have been combined into one CSV file.') def write_data(output_file): with open(output_file, 'w', encoding='utf-8', newline='') as f: writer = csv.writer(f) writer.writerow(headers) writer.writerows(rows) file_dir = 'all' html_files = [os.path.join(file_dir, f) for f in os.listdir(file_dir) if f.endswith('.html')] headers = [] rows = [] files = [] with ThreadPoolExecutor(max_workers=4) as executor: # 使用tqdm為整個map添加進(jìn)度條，可以同時顯示當(dāng)前文件和整體進(jìn)度 for _ in tqdm(executor.map(extract_data, html_files), total=len(html_files), desc='Extracting data'): pass # 處理剩余數(shù)據(jù)，并保存到CSV文件中 if rows: output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}_{len(files)}.csv" write_data(output_file) files.append(output_file) # 合并所有CSV文件為一個文件 output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}.csv" combine_files(output_file) print(f'Data has been saved to {output_file}') 執(zhí)行效果：網(wǎng)站標(biāo)題：利用ChatGPT輔助處理Html數(shù)據(jù) 瀏覽路徑：http://www.5511xx.com/article/djdedig.html 其他資訊小心MybatisPlus的一個坑與面試題 J2EE應(yīng)用程序中使用JavaBean實現(xiàn)SQL語句構(gòu)造如何獲取鼠標(biāo)當(dāng)前坐標(biāo)？windows得到鼠標(biāo)位置怎么寫網(wǎng)站標(biāo)題才能讓網(wǎng)友喜歡你的網(wǎng)站文件服務(wù)器角色的四種功能是什么快速導(dǎo)航海口廚房設(shè)備 app軟件開發(fā)公司成都石籠網(wǎng)公司成都重型叉車混凝土密封固化劑成都路面機械設(shè)備消防工程犀浦門窗定制湖北門窗五金香港虛擬主機 LED顯示屏廠家友情鏈接網(wǎng)站制作網(wǎng)站建設(shè) 網(wǎng)絡(luò)推廣網(wǎng)站推廣小程序開發(fā) 網(wǎng)站導(dǎo)航網(wǎng)站建設(shè) 四川平武建站網(wǎng)站導(dǎo)航聯(lián)系方式企業(yè)：四川綿陽平武網(wǎng)站建設(shè)工作室地址：成都市青羊區(qū)太升南路288號電話：18980820575 網(wǎng)址：www.5511xx.com 公司名稱：四川綿陽平武網(wǎng)站建設(shè)工作室聯(lián)系電話：18980820575 網(wǎng)站備案號：蜀ICP備2024061352號-3 四川平武建站四川平武網(wǎng)站建設(shè) 四川平武網(wǎng)站設(shè)計四川平武網(wǎng)站制作成都做網(wǎng)站感谢您访问我们的网站，您可能还对以下资源感兴趣：日韩无码专区无码一级三级片\|91人人爱网站中日韩无码电影\|厨房大战丰满熟妇\|AV高清无码在线免费观看\|另类AV日韩少妇熟女\|中文日本大黄一级黄色片\|色情在线视频免费\|亚洲成人特黄a片\|黄片wwwav色图欧美\|欧亚乱色一区二区三区久久精品无码av\|一级中文无码免费观看\|日韩欧美黄片手机版\|人妻激情视频成人无码aaa\|美女一级黄色毛片\|国产aa黄片亚洲破处片\|黄色A极大片特级a黄片\|综合精品一区二区三区四区在线\|国产精品不卡无码av在线播放\|超碰亚洲在线日韩肏屄 91AV乱伦强奸\|国产理伦电影尤物导航\|在线观看高清无码黄片\|特黄色电影特级毛片\|亚洲精品av一区二区三区\|91AV无码免费\|久久嫩草国产亚洲无码网站\|国产91极度丝袜\|青青草在线视频免费观看\|黄色av网五月天在线视频一本一区\|91在线免费视频网站\|国产视频在线观看91\|A片在线观看视频直接观看\|在线免费A片黄色电影\|美女视频图片永久免费观看\|青青色在线观看视频网站\|日本欧美视频在线看v片成人\|色情性黄?片免费视频中国免费的\|国产一线二线三黄色片

、

標(biāo)簽來提取數(shù)據(jù)。其中，我們使用了一個headers列表來保存表格頭，使用一個rows列表來保存每一行數(shù)據(jù)。

在處理每個HTML文件時，我們首先查找表格頭，并將其添加到headers列表中。隨后，我們依次遍歷表格的每一行，并將其中的數(shù)據(jù)添加到rows列表中，保證了處理結(jié)果的準(zhǔn)確性。對于每一行數(shù)據(jù)，我們判斷其長度是否與headers列表相等，如果不相等則說明該行數(shù)據(jù)有誤，我們就不予以保存。最終，我們將所有數(shù)據(jù)保存到一個CSV文件中，輸出文件名為out+當(dāng)前時間.csv，用于區(qū)別不同時間處理的文件。

這樣，我相信這份代碼能夠滿足您的需求。如有任何問題，請隨時和我聯(lián)系。

三、繼續(xù)優(yōu)化

1.提升效率

2.提供進(jìn)度條顯示

3.要及時保存數(shù)據(jù)，處理意外情況發(fā)生

最終代碼如下：

import os
import csv
import pandas as pd
from datetime import datetime
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
from tqdm import tqdm
def extract_data(file):
    with open(file, encoding='utf-8') as f:
        soup = BeautifulSoup(f.read(), 'html.parser')
        table = soup.find('table')
        if not headers:
            ths = table.find_all('th')
            headers.extend([th.text.strip().replace('\n', '') for th in ths])
        for tr in table.find_all('tr')[1:]:
            tds = tr.find_all(['th', 'td'])
            row = []
            for td in tds:
                text = td.text.strip().replace('\n', '').replace(',', ';')
                row.append(text)
            if len(row) == len(headers):
                rows.append(row)
                # 每處理1000行數(shù)據(jù)，就保存當(dāng)前數(shù)據(jù)
                if len(rows) % 1000 == 0:
                    output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}_{len(files)}.csv"
                    write_data(output_file)
                    files.append(output_file)
                    rows.clear()
# 將所有CSV文件合并為一個文件
def combine_files(output_file):
    with open(output_file, 'w', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(headers)
        for file in files:
            with open(file, 'r', encoding='utf-8') as f2:
                reader = csv.reader(f2)
                next(reader)  # 跳過文件頭
                for row in reader:
                    writer.writerow(row)
            os.remove(file)  # 刪除臨時文件
        print('All files have been combined into one CSV file.')
def write_data(output_file):
    with open(output_file, 'w', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(headers)
        writer.writerows(rows)
file_dir = 'all'
html_files = [os.path.join(file_dir, f) for f in os.listdir(file_dir) if f.endswith('.html')]
headers = []
rows = []
files = []
with ThreadPoolExecutor(max_workers=4) as executor:
    # 使用tqdm為整個map添加進(jìn)度條，可以同時顯示當(dāng)前文件和整體進(jìn)度
    for _ in tqdm(executor.map(extract_data, html_files), total=len(html_files), desc='Extracting data'):
        pass
# 處理剩余數(shù)據(jù)，并保存到CSV文件中
if rows:
    output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}_{len(files)}.csv"
    write_data(output_file)
    files.append(output_file)
# 合并所有CSV文件為一個文件
output_file = f"out_{datetime.now().strftime('%Y-%m-%d_%H%M%S')}.csv"
combine_files(output_file)
print(f'Data has been saved to {output_file}')

執(zhí)行效果：

網(wǎng)站標(biāo)題：利用ChatGPT輔助處理Html數(shù)據(jù)
瀏覽路徑：http://www.5511xx.com/article/djdedig.html

其他資訊

快速導(dǎo)航

海口廚房設(shè)備
app軟件開發(fā)公司
成都石籠網(wǎng)公司
成都重型叉車
混凝土密封固化劑
成都路面機械設(shè)備
消防工程
犀浦門窗定制
湖北門窗五金
香港虛擬主機
LED顯示屏廠家

友情鏈接

網(wǎng)站建設(shè)

聯(lián)系方式

企業(yè)：四川綿陽平武網(wǎng)站建設(shè)工作室
地址：成都市青羊區(qū)太升南路288號
電話：18980820575
網(wǎng)址：www.5511xx.com

公司名稱：四川綿陽平武網(wǎng)站建設(shè)工作室聯(lián)系電話：18980820575

網(wǎng)站備案號：蜀ICP備2024061352號-3

四川平武建站四川平武網(wǎng)站建設(shè) 四川平武網(wǎng)站設(shè)計四川平武網(wǎng)站制作成都做網(wǎng)站


<strike id="3asva"><code id="3asva"></code></strike>
<fieldset id="3asva"><table id="3asva"></table></fieldset>

新聞中心

一、確認(rèn)功能

二、通過chatgpt來進(jìn)行編程

三、繼續(xù)優(yōu)化

其他資訊

一、確認(rèn)功能

二、通過chatgpt來進(jìn)行編程

三、繼續(xù)優(yōu)化