網(wǎng)頁(yè)爬蟲(chóng) - Python:爬蟲(chóng)的中文編碼問(wèn)題?
問(wèn)題描述
爬取中文網(wǎng)頁(yè)后正則匹配出中文,得打UTF-8的編碼字符
將其輸出為.csv文件
在.CSV中顯示為亂碼
用記事本打開(kāi).csv又可以正常顯示為中文
有沒(méi)有大神指點(diǎn)是怎么一回事?怎樣才能在Excel里直接看到中文?
問(wèn)題解答
回答1:簡(jiǎn)單地方法是用pandas的to_excel方法轉(zhuǎn)化成.xlsx文件,因?yàn)?xlsx默認(rèn)編碼是默認(rèn)支持Excel的,區(qū)別當(dāng)然是無(wú)法用記事本打開(kāi)。
import pandas as pda = pd.read_csv(’./test.csv’)a.to_excel(’./test_output.xlsx’, index=False)a.to_excel(’./test_output.csv’, index=False)
我這里沒(méi)有windows可以測(cè)試,可以嘗試寫(xiě)入編碼為gb2312或者gbk試試。
表格文件類I/O的話其實(shí)pandas更方便一點(diǎn)。
回答2:abs1=abs1.decode().encode(’gbk’)
回答3:excel默認(rèn)使用的是GBK編碼。
回答4:新建一個(gè)excel文件,然后點(diǎn) 數(shù)據(jù) 自文本,導(dǎo)入csv文件
相關(guān)文章:
1. node.js - mysql如何通過(guò)knex查詢今天和七天內(nèi)的匯總數(shù)據(jù)2. mysql 插入數(shù)值到特定的列一直失敗3. 360瀏覽器與IE瀏覽器有何區(qū)別???4. Python從URL中提取域名5. mysql - 百萬(wàn)行的表中是否盡量避免使用update等sql語(yǔ)句?6. python - 在使用Pycharm時(shí)經(jīng)常看到如下的樣式,小括號(hào)里紅色的部分是什么意思呢?7. javascript - 新浪微博網(wǎng)頁(yè)版的字?jǐn)?shù)限制是怎么做的8. 怎么在網(wǎng)頁(yè)中設(shè)置圖片進(jìn)行左右滑動(dòng)9. javascript - 豆瓣的這個(gè)自適應(yīng)是怎么做的?10. javascript - 用jsonp抓取qq音樂(lè)總是說(shuō)回調(diào)函數(shù)沒(méi)有定義
