python - ulipad爬網(wǎng)頁(yè)時(shí)中文為何是16進(jìn)制?
問題描述
#! /usr/bin/env python#coding=utf-8import urlliburl = 'http://www.tust.edu.cn'content = urllib.urlopen(url).read()print content
python初學(xué)者,也是編程初學(xué)者。上面是代碼,用python2.7編譯的時(shí)候網(wǎng)頁(yè)上的中文可以正常顯示,但是用ulipad編譯的時(shí)候,網(wǎng)頁(yè)中的文字就是以16進(jìn)制的方式顯示的。請(qǐng)問這個(gè)是什么問題?
我搜索的時(shí)候,看到有的回答說(shuō)是在代碼后面加上encode
然而我在content后面接encode(’utf-8’)或者encode(’gb2312’)的時(shí)候都會(huì)提示報(bào)錯(cuò)
ascii codec can’t decode byte 0Xef in position 0:ordinal not in range
我查了一下,找到了下面這個(gè)網(wǎng)址
http://blog.csdn.net/qian_f/a...
好像是說(shuō)是字符編碼不統(tǒng)一的問題。緊接著我查了一下read返回的好像就是byte string呀....
求各位大神解答...
問題解答
回答1:個(gè)人理解,應(yīng)該是read()默認(rèn)的編碼無(wú)法解析網(wǎng)頁(yè)內(nèi)容,查下資料,嘗試在read的括號(hào)內(nèi)指定編碼,應(yīng)該沒有必要用encode的
回答2:unicode.encode(content,’utf-8’);
相關(guān)文章:
1. python中def定義的函數(shù)加括號(hào)和不加括號(hào)的區(qū)別?2. 怎么能做出標(biāo)簽切換頁(yè)的效果,(文字內(nèi)容隨動(dòng))3. javascript - 有適合開發(fā)手機(jī)端Html5網(wǎng)頁(yè)小游戲的前端框架嗎?4. PHP訂單派單系統(tǒng)5. python的正則怎么同時(shí)匹配兩個(gè)不同結(jié)果?6. php多任務(wù)倒計(jì)時(shí)求助7. 數(shù)組排序,并把排序后的值存入到新數(shù)組中8. javascript - charles map remote映射問題9. mysql - sql 左連接結(jié)果union右連接結(jié)果,導(dǎo)致重復(fù)性計(jì)算怎么解決?10. 默認(rèn)輸出類型為json,如何輸出html
