日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關咨詢
選擇下列產(chǎn)品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
創(chuàng)新互聯(lián)Python教程:Python如何讀取pdf中的圖片

本篇就在python中讀取PDF圖片較上篇讀取excel的略微復雜,相信小伙們已經(jīng)準備好迎接今天的挑戰(zhàn),接下來一起看看吧:

成都創(chuàng)新互聯(lián)公司主營昌邑網(wǎng)站建設的網(wǎng)絡公司,主營網(wǎng)站建設方案,重慶App定制開發(fā),昌邑h5微信平臺小程序開發(fā)搭建,昌邑網(wǎng)站營銷推廣歡迎昌邑等地區(qū)企業(yè)咨詢

1.倒入相關庫

import fitz import time import re import os


2.具體實現(xiàn)

為了方便和其他模塊組合,我直接寫了個函數(shù)完成這個功能,實現(xiàn)如下:

(1)使用正則表達式查找PDF中的圖片

def pdf2pic(path, pic_path):    '''    # 從pdf中提取圖片    :param path: pdf的路徑    :param pic_path: 圖片保存的路徑    :return:    '''    t0 = time.clock()    # 使用正則表達式來查找圖片    checkXO = r"/Type(?= */XObject)"    checkIM = r"/Subtype(?= */Image)"  

(2)打印PDF的相關信息

   # 打開pdf    doc = fitz.open(path)    # 圖片計數(shù)    imgcount = 0    lenXREF = doc._getXrefLength()    # 打印PDF的信息    print("文件名:{}, 頁數(shù): {}, 對象: {}".format(path, len(doc), lenXREF - 1))

(3)遍歷PDF中的對象,遇到是圖像才進行下一步,不然就continue

并且我們將文件的名字命名為word所在的路徑

   # 遍歷每一個對象    for i in range(1, lenXREF):        # 定義對象字符串        text = doc.getObjectString(i)        isXObject = re.search(checkXO, text)        # 使用正則表達式查看是否是圖片        isImage = re.search(checkIM, text)        # 如果不是對象也不是圖片,則continue        if not isXObject or not isImage:            continue        imgcount += 1        # 根據(jù)索引生成圖像        pix = fitz.Pixmap(doc, i)        # 根據(jù)pdf的路徑生成圖片的名稱        new_name = path.replace('\\', '_') + "_img{}.png".format(imgcount)        new_name = new_name.replace(':', '')

(4)將圖像存為png格式

       # 如果pix.n<5,可以直接存為PNG        if pix.n < 5:            pix.writePNG(os.path.join(pic_path, new_name))        # 否則先轉(zhuǎn)換CMYK        else:            pix0 = fitz.Pixmap(fitz.csRGB, pix)            pix0.writePNG(os.path.join(pic_path, new_name))            pix0 = None        # 釋放資源        pix = None        t1 = time.clock()        print("運行時間:{}s".format(t1 - t0))        print("提取了{}張圖片".format(imgcount))

(5)輸入pdf路徑,即可運行

if __name__=='__main__':    # pdf路徑    path = r'E:\dogcat\提取圖片\計算機視覺算法工程師.pdf'    pic_path = r'E:\dogcat\提取圖片\測試'    # 創(chuàng)建保存圖片的文件夾    if os.path.exists(pic_path):        print("文件夾已存在,請重新創(chuàng)建新文件夾!")        raise SystemExit    else:        os.mkdir(pic_path)    m = pdf2pic(path, pic_path)

3.結果預覽

(1)程序結果:

(2)原本的pdf:

(3)提取出來的圖片

到這里,三種不同軟件用Python讀取圖片的方法全部講完了,大家可以根據(jù)需要自由選擇。

更多Python學習推薦:PyThon學習網(wǎng)教學中心。

(推薦操作系統(tǒng):windows7系統(tǒng)、Python 3.9.1,DELL G3電腦。)


網(wǎng)頁題目:創(chuàng)新互聯(lián)Python教程:Python如何讀取pdf中的圖片
瀏覽路徑:http://www.5511xx.com/article/coedpso.html