国产成人精品18p,天天干成人网,无码专区狠狠躁天天躁,美女脱精光隐私扒开免费观看

Python3中編碼與解碼之Unicode與bytes的示例分析

發(fā)布時(shí)間：2021-08-26 11:14 來(lái)源：億速云閱讀：0 作者：小新欄目：開(kāi)發(fā)技術(shù)

這篇文章將為大家詳細講解有關(guān)Python3中編碼與解碼之Unicode與bytes的示例分析，小編覺(jué)得挺實(shí)用的，因此分享給大家做個(gè)參考，希望大家閱讀完這篇文章后可以有所收獲。

Python爬蟲(chóng)，下載一個(gè)網(wǎng)頁(yè)，然后把所有內容寫(xiě)入一個(gè)txt文件中，出現錯誤；

TypeError: write() argument must be str, not bytes
AttributeError: 'URLError' object has no attribute 'code'
UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' inposition 5747: illegal multibyte sequence

一看就是編碼問(wèn)題，不懂，度娘上面這方面講得不多，感覺(jué)沒(méi)說(shuō)清楚，自己研究了一晚上，摸出了一點(diǎn)門(mén)道。

從頭說(shuō)起，由于各國語(yǔ)言文字不同，起初要在計算機中表示，就有了各種各樣的編碼（例如中文的gb2312）。但是這樣就出現了兼容性的問(wèn)題，所以就有了Unicode，也就是所謂的萬(wàn)國碼，python3中字符串類(lèi)型str就是以Unicode編碼格式編碼，所以我們在Python3 中看到多種語(yǔ)言文字的字符串而不會(huì )出現亂碼。

編碼是一種用一種特定的方式對抽象字符（Unicode）轉換為二進(jìn)制形式（bytes）進(jìn)行表示，也就是python3中的encode。解碼就是對用特定方式表示的二進(jìn)制數據用特定的方式轉化為Unicode，也就是decode。

下圖就是編碼的核心：

一、字符的編碼：

Python對于bites類(lèi)型的數據用帶‘b‘前綴的單引號活雙引號表示。

下面關(guān)于字符編碼解碼的代碼很好的解釋了上面的流程圖：

s='你好'
print(s)#輸出結果：你好
print(type(s))#輸出結果：<class 'str'>
s=s.encode('UTF-8')
print(s)#輸出結果：b'\xe4\xbd\xa0\xe5\xa5\xbd'
print(type(s))#輸出結果：<class 'bytes'>
s=s.decode('UTF-8')
print(s)#輸出結果：你好
print(type(s))#輸出結果：<class 'str'>

多說(shuō)一句，如果你對str類(lèi)型字符進(jìn)行decode會(huì )報錯，同理，對bytes類(lèi)型進(jìn)行encode也會(huì )報錯。

二、文件編碼

在python 3 中字符是以Unicode的形式存儲的，當然這里所說(shuō)的存儲是指存儲在計算機內存當中，如果是存儲在硬盤(pán)里，Python 3的字符是以bytes形式存儲，也就是說(shuō)如果要將字符寫(xiě)入硬盤(pán)，就必須對字符進(jìn)行encode。對上面這段話(huà)再解釋一下，如果要將str寫(xiě)入文件，如果以‘w'模式寫(xiě)入，則要求寫(xiě)入的內容必須是str類(lèi)型；如果以‘wb'形式寫(xiě)入，則要求寫(xiě)入的內容必須是bytes類(lèi)型。文章開(kāi)頭出現的集中錯誤，就是因為寫(xiě)入模式與寫(xiě)入內容的數據類(lèi)型不匹配造成的。

s1 = '你好'
#如果是以‘w'的方式寫(xiě)入，寫(xiě)入前一定要進(jìn)行encoding，否則會(huì )報錯 
with open('F:\\1.txt','w',encoding='utf-8') as f1:
  f1.write(s1)
s2 = s1.encode("utf-8")#轉換為bytes的形式
#這時(shí)候寫(xiě)入方式一定要是‘wb'，且一定不能加encoding參數
with open('F:\\2.txt','wb') as f2:
  f2.write(s2)

有的人會(huì )問(wèn)，我在系統里面用文本編輯器打開(kāi)以bytes形式寫(xiě)入的2.txt文件，發(fā)現里面顯示的是‘你好'，而不是‘b'\xe4\xbd\xa0\xe5\xa5\xbd''，因為文本文檔打開(kāi)2.txt時(shí)，又會(huì )對它進(jìn)行decode，然后才給你看到。

三、網(wǎng)頁(yè)的編碼

網(wǎng)頁(yè)編碼和文件編碼方法差不多，如下urlopen下載下來(lái)的網(wǎng)頁(yè)read()且用decoding(‘utf-8')解碼，那就必須以‘w'的方式寫(xiě)入文件。如果只是read()而不用encoding(‘utf-8')進(jìn)行編碼，一定要以‘wb'方式寫(xiě)入：

以‘w'方式寫(xiě)入時(shí)：

response= url_open('https://www.jb51.net/article/157034.htm ' ,timeout=5 )
#此處以UTF-8方式進(jìn)行解碼，解碼后的數據以unicode的方式存儲在html中
html = response.read().decode('UTF-8')
print(type(html))#輸出結果：<class 'str'>
#這時(shí)寫(xiě)入方式一定要加encoding,以encoding
# 即UTF-8的方式對二進(jìn)制數據進(jìn)行編碼才能寫(xiě)入
with open('F:\DownloadAppData\html.txt',"w" , encoding='UTF-8') as f:
  f.write(html)

以‘wb'方式寫(xiě)入：

response= url_open('https://www.jb51.net/article/157034.htm ' ,timeout=5 )
html = response.read()#此處不需要進(jìn)行解碼，下載下來(lái)
print(type(html))#輸出結果：<class 'bytes'>
with open('F:\DownloadAppData\html.txt',"wb" ) as f:
  f.write(html)

如果要在Python3中，對urlopen下來(lái)的網(wǎng)頁(yè)進(jìn)行字符搜索，肯定也要進(jìn)行decode，例如使用lxml.etree就必須進(jìn)行decode。

免責聲明：本站發(fā)布的內容（圖片、視頻和文字）以原創(chuàng )、來(lái)自互聯(lián)網(wǎng)轉載和分享為主，文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權請聯(lián)系QQ:712375056 進(jìn)行舉報，并提供相關(guān)證據，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權內容。

上一篇新聞：
上一篇：Python中最大遞歸深度值的示例分析
下一篇新聞：
下一篇：Python中反射和單例模式的示例分析

優(yōu)惠

云主機8折虛擬主機6折

紅包可用于（云服務(wù)器、高防服務(wù)器、裸金屬服務(wù)器、高防IP、云數據庫、CDN加速）購買(mǎi)和續費

領(lǐng)取優(yōu)惠卷

Copyright ? 2009-2021 56dr.com. All Rights Reserved. 特網(wǎng)科技特網(wǎng)云版權所有　珠海市特網(wǎng)科技有限公司　粵ICP備16109289號

域名注冊服務(wù)機構:阿里云計算有限公司（萬(wàn)網(wǎng)）域名服務(wù)機構：煙臺帝思普網(wǎng)絡(luò )科技有限公司（DNSPod） CDN服務(wù)：阿里云計算有限公司中國互聯(lián)網(wǎng)舉報中心增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2

建議您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流瀏覽器瀏覽本網(wǎng)站

QQ咨詢(xún)
請選擇客服進(jìn)行咨詢(xún)
微信咨詢(xún)
電話(huà)咨詢(xún)
請選擇客服進(jìn)行咨詢(xún)
- 0756-2113031
備案
工單
TOP

黑人刚破完处就三P| AV天堂亚洲区无码先锋影音| 久久不见久久见WWW免费视频| 后入骚妇内射AV| 超caopor在线公开视频| 亚洲av无码专区在线亚|