文章詳情頁

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

瀏覽：78日期：2022-06-26 08:24:48

第一、幾種常用方法

讀取TXT文檔：urlopen()

讀取PDF文檔：pdfminer3k

第二、亂碼問題

(1)、

from urllib.request import urlopen#訪問wiki內(nèi)容html = urlopen('https://en.wikipedia.org/robots.txt')print(html.read())輸出的結(jié)果中出現(xiàn)亂碼原因：

計算機只能處理0和1兩個數(shù)字，所以想要處理文本，必須把文本變成0和1這樣的數(shù)字，最早的計算機使用八個0和1表示一個字節(jié)，所以最大能夠表示整數(shù)是255=11111111.如果想要表示更大的數(shù)，必須使用更多的字節(jié)。

由于計算機是美國人發(fā)明的，所以最早只有127個字符被編寫進計算機，即常見的阿拉伯數(shù)字，字母大小寫，以及鍵盤上的符號。此編碼被稱為ASCII編碼，比如大寫字母A的ASCII編碼是65,65再被轉(zhuǎn)換二進制01000001，即是計算機處理的東西。

顯然，ASCII不能表示中文，故中國制定了自己的GB2312編碼，并且兼容ASCII編碼。問題是：使用GB2312編碼的慕課網(wǎng)三個字，假設(shè)編碼為61,62,63.但在ASCII碼表可能是其他字符。如下圖示，日文中的616263編碼成其他字符，打開后意思出錯。

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

解決方法：

國際上的unicode編碼，整合全世界所有編碼。故unicode編碼的內(nèi)容在任一臺計算機用unicode仍正常打開

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

又對于A,ASCII編碼為01000001，Unicode編碼：0000000001000001此時浪費空間

故出現(xiàn)UTF-8編碼：01000001此時用兩個八位存儲中文。

(2)、記事本使用unicode編碼，將記事本存到計算機時，將轉(zhuǎn)化為utf-8儲存。

在計算機中打開文本時，將轉(zhuǎn)化為unicode編碼

存儲原因：使用utf-8儲存節(jié)省空間，使用unicode打開保證最大的兼容

(3)、服務器讀取uncode編碼的文檔，轉(zhuǎn)化為utf-8格式傳給瀏覽器。因為網(wǎng)絡(luò)帶寬昂貴，轉(zhuǎn)化為了減少負擔。

(4)、python3字符串默認使用Unicode編碼，所以python3支持多種語言

以Unicode表示的str通過encode()方法可以編碼為指定的bytes

如果bytes使用ASCII編碼，遇到ASCII碼表沒有的字符會以x##表示，此時只用‘x##’.decode(’utf-8’)即可

(5)、解決方法

from urllib.request import urlopen#訪問wiki內(nèi)容html = urlopen('https://en.wikipedia.org/robots.txt')print(html.read().decode('utf-8'))第三、pdfminer3k安裝法一：

(1)、進入網(wǎng)址直接下載并解壓：https://pypi.python.org/pypi/pdfminer3k/

(2)、以管理員身份運行命令行窗口，進入軟件解壓縮位置，運行python setup.py install

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

法二：

(3)、直接在pycharm中安裝

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

(4)、讀取pdf過程：首先創(chuàng)建一個分析器pdfparser和文檔對象pdfdocument，并通過兩個方法相互關(guān)聯(lián)，然后調(diào)用文檔對象的初始化方法（可以傳參數(shù)），此時資源內(nèi)容被加載到文檔對象中。

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

創(chuàng)建資源管理器和參數(shù)分析器，然后創(chuàng)建聚合器(整合資源管理器和參數(shù)分析器)，通過聚合器創(chuàng)建解釋器（對pdf文檔進行編碼，解釋成python能識別的格式）

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

(5)、讀取pdf文檔：通過文檔對象的get_pages()方法得到pdf每一頁的內(nèi)容，通過解釋器的process_page()方法讀取一頁一頁。

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

(6)、實例演示

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

from pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParamsfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.pdfdevice import PDFDevice#獲得文檔對象,以二進制讀方式打開fp = open('naacl06-shinyama.pdf', 'rb')#創(chuàng)建一個與文檔關(guān)聯(lián)的分析器parser = PDFParser(fp)#創(chuàng)建一個pdf文檔的對象doc = PDFDocument()#連接解釋器與文檔對象parser.set_document(doc)doc.set_parser(parser)#初始化文檔,如果文檔有密碼，寫與此。doc.initialize('')#創(chuàng)建pdf資源管理器resource = PDFResourceManager()#參數(shù)分析器laparam = LAParams()#創(chuàng)建聚合器device = PDFPageAggregator(resource, laparams=laparam)#創(chuàng)建pdf頁面解釋器interpreter = PDFPageInterpreter(resource, device)#使用文檔對象得到頁面的集合for page in doc.get_pages(): #使用頁面解釋器讀取 interpreter.process_page(page) #使用聚合器來獲得內(nèi)容 layout = device.get_result() for out in layout: if hasattr(out, 'get_text'): print(out.get_text())

一下用于讀取網(wǎng)站上pdf內(nèi)容

fp = urlopen(http://www.tencent.com/zh-cn/articles/8003251479983154.pdf)

補充內(nèi)容：

python 實現(xiàn)存儲數(shù)據(jù)到txt和pdf文檔及亂碼問題的解決

以上為個人經(jīng)驗，希望能給大家一個參考，也希望大家多多支持好吧啦網(wǎng)。如有錯誤或未考慮完全的地方，望不吝賜教。

Python 編程

上一條：python pdfkit 中文亂碼問題的解決方案下一條：Python 制作詞云的WordCloud參數(shù)用法說明

相關(guān)文章：

1. IntelliJ IDEA設(shè)置條件斷點的方法步驟2. IntelliJ IDEA導入jar包的方法3. SSM框架JSP使用Layui實現(xiàn)layer彈出層效果4. 刪除docker里建立容器的操作方法5. IntelliJ IDEA導出項目的方法6. Laravel中ServiceProvider使用場景示例詳解7. Python產(chǎn)生batch數(shù)據(jù)的操作8. Java導出Execl疑難點處理的實現(xiàn)9. 淺談定義一個PHP函數(shù)10. 基于android studio的layout的xml文件的創(chuàng)建方式

排行榜

					
					IntelliJ IDEA設(shè)置條件斷點的方法步驟
IntelliJ IDEA導入jar包的方法
SSM框架JSP使用Layui實現(xiàn)layer彈出層效果
刪除docker里建立容器的操作方法
IntelliJ IDEA導出項目的方法
談談JavaScript令人迷惑的==與+
Python產(chǎn)生batch數(shù)據(jù)的操作
如何在IntelliJ IDEA 2018上配置Tomcat并運行第一個JavaWeb項目
基于android studio的layout的xml文件的創(chuàng)建方式
JS如何在數(shù)組指定位置插入元素
IDEA創(chuàng)建SpringBoot的maven項目的方法步驟