日本特黄视频国内特黄视频。,国产无码Av日韩超碰,亚洲一二三区成人18

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

Python 實現(xiàn) PD 文字識別、提取并寫入 CSV 文件腳本分享

一、前言

金秀網(wǎng)站制作公司哪家好，找創(chuàng)新互聯(lián)！從網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、成都響應(yīng)式網(wǎng)站建設(shè)公司等網(wǎng)站項目制作，到程序開發(fā)，運營維護(hù)。創(chuàng)新互聯(lián)2013年至今到現(xiàn)在10年的時間，我們擁有了豐富的建站經(jīng)驗和運維經(jīng)驗，來保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)。

二、需求描述

三、開始動手動腦

3.1 安裝相關(guān)第三方包

3.2 導(dǎo)入需要用到的第三方庫

3.3 讀取pdf文件，并識別內(nèi)容

3.4 對識別的數(shù)據(jù)進(jìn)行處理，寫入csv文件

總結(jié)

1. 前言

掃描件一直受大眾青睞，任何紙質(zhì)資料在掃描之后進(jìn)行存檔，想使用時手機就能打開，省心省力。但是掃描件的優(yōu)點也恰恰造成了它的一個缺點，因為是通過電子設(shè)備掃描，所以出來的是圖像，如果想要處理文件上的內(nèi)容，直接操作是無法實現(xiàn)的。

那要是想要引用其中的內(nèi)容怎么辦呢？別擔(dān)心，Python幫你解決問題。

2. 需求描述

現(xiàn)有一份pdf掃描件，我們想把其中的文字提取出來并且分三列寫入csv文檔，內(nèi)容及效果如下：

pdfexample

csvexample

3. 開始動手動腦

pdf掃描件是文檔掃描成電腦圖片格式后轉(zhuǎn)化成的，提取其中的文字就相當(dāng)于識別圖片內(nèi)的文字。所以，我們的工作就是將pdf轉(zhuǎn)成圖片，再用ocr工具提取圖片中的文字。

3.1 安裝相關(guān)第三方包

pip3 install pdf2image pytesseract

3.2 導(dǎo)入需要用到的第三方庫

import os   #處理文件
from pdf2image import convert_from_path  # pdf轉(zhuǎn)圖片
import pytesseract  # 識別圖片文字
import csv  # 處理csv文件

3.3 讀取pdf文件，并識別內(nèi)容

tess_ocr(pdf_path, lang, first_page, last_page)

將pdf文件拆分成圖片，并提取文字寫入文本文件

pdf_path：pdf文件的存儲路徑
image：代表PDF文檔每頁的PIL圖像列表
first_page ：允許設(shè)置由pdftoppm處理的第一個頁面；
last_page：允許設(shè)置最后一頁由pdftoppm處理
fmt：允許指定輸出格式。目前支持的格式是jpg、png和ppm；
output_folder：圖片保存路徑

def tess_ocr(pdf_path, lang,first_page,last_page):
  # 創(chuàng)建一個和pdf同名的文件夾
   images = convert_from_path(pdf_path, fmt='png',first_page=first_page,last_page=last_page,output_folder=imagefolder,userpw='site')  # 轉(zhuǎn)成圖片
  text = ''
  for img in images:    
       text += pytesseract.image_to_string(img, lang=lang) # 識別圖片文字  
       with open(r'example\data.txt' 'a', encoding='utf-8') as f: #寫入txt文件
       f.write(text)

運行結(jié)果

生成一個同名的文件夾存放拆分的圖片，接著提取圖片文字寫入data.txt

image-20211215212147760

運行問題

“ 問題拋出1：

pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH? ”

解決措施：下載 poppler。

>1 方法一：設(shè)置環(huán)境變量 poppler/bin；

>2 方法二：

參數(shù)指定絕對路徑：

images = convert_from_path(pdf_path=pdf_file_path, poppler_path=r'poppler中bin文件所在地址')

“ 問題拋出2：

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information. ”

解決措施：額外下載安裝tesseract-ocr并配置環(huán)境變量。

3.4 對識別的數(shù)據(jù)進(jìn)行處理，寫入csv文件

modification(infile, outfile)

清洗生成的文本文檔

infile:需要進(jìn)行處理的文件地址
outfile:處理后生成的新文件的地址

def modification(infile, outfile):
  infp = open(infile, "r",encoding='utf-8')
  outfp = open(outfile, "w",encoding='utf-8')
  lines = infp.readlines() #返回列表，包含所有的行。
  #依次讀取每行
  for li in lines:  
    if li.split():             #str.split(str="", num=string.count(str)),過濾文件中的空行  
      # 根據(jù)識別情況對數(shù)據(jù)進(jìn)行清洗  
      li = li.replace('[', ' ').replace(']', '')  
      outfp.writelines(li)    
  infp.close()
  outfp.close()

運行結(jié)果

生成一個新的txt文件，新文件刪除了data.txt中的空行，將原文件中錯誤識別的內(nèi)容替換成正確的。

writercsv(intxt,outcsv)

將文本文件按空格分列寫入csv表格

intxt：文本文件地址
outcsv：新生成的csv文件

def writercsv(intxt,outcsv):
  # 使用newlines=''可保證存儲的數(shù)據(jù)不空行。
  csvFile = open(outcsv, 'a',newline='', encoding='utf-8') 
  writer = csv.writer(csvFile)
  csvRow = []
  f = open(intxt,'r',encoding='utf-8')
  for line in f:
      csvRow = line.split() #以空格為分隔符
      if len(csvRow)>1 and len(csvRow)<=3:  #約束條件，視情況而定
         writer.writerow(csvRow)
  f.close()
  csvFile.close()

運行結(jié)果

生成一個三列csv文件，第一列是英文名，第二列是中文名，第三列是所在國家

image-20211215204846623

image-20211215204941725

總結(jié)

通過本次學(xué)習(xí)實現(xiàn)了從掃描件中提取文字、把內(nèi)容按要求寫進(jìn)不同格式的文檔的需求。

最初以為提取pdf的庫也適用于掃描件，嘗試了Pdfplumber庫和PyPDF2庫。

實踐發(fā)現(xiàn)Pdfplumber只能識別掃描件pdf中的水印，不適用于掃描件的pdf，而PyPDF2庫運行報錯：NotImplementedError: only algorithm code 1 and 2 are supported。

原因是這個被加密的pdf可能是從高版本的acrobot中來的，所以對應(yīng)的加密算法代號為‘4’，然而，現(xiàn)有的pypdf2模塊并只支持加密算法代號為‘1’或者‘2’的pdf加密文件。

網(wǎng)站欄目：Python 實現(xiàn) PD 文字識別、提取并寫入 CSV 文件腳本分享
新聞來源：http://www.5511xx.com/article/dhiccoj.html

日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

新聞中心

1. 前言

2. 需求描述

3. 開始動手動腦

3.1 安裝相關(guān)第三方包

3.2 導(dǎo)入需要用到的第三方庫

3.3 讀取pdf文件，并識別內(nèi)容

運行結(jié)果

運行問題

3.4 對識別的數(shù)據(jù)進(jìn)行處理，寫入csv文件

運行結(jié)果

運行結(jié)果

總結(jié)

其他資訊

新聞中心

1. 前言

2. 需求描述

3. 開始動手動腦

3.1 安裝相關(guān)第三方包

3.2 導(dǎo)入需要用到的第三方庫

3.3 讀取pdf文件，并識別內(nèi)容

運行結(jié)果

運行問題

3.4 對識別的數(shù)據(jù)進(jìn)行處理，寫入csv文件

運行結(jié)果

運行結(jié)果

總結(jié)

其他資訊

3.3 讀取pdf文件，并識別內(nèi)容

3.4 對識別的數(shù)據(jù)進(jìn)行處理，寫入csv文件