新聞中心

成都創(chuàng)新互聯(lián)長期為近1000家客戶提供的網(wǎng)站建設(shè)服務(wù),團(tuán)隊(duì)從業(yè)經(jīng)驗(yàn)10年,關(guān)注不同地域、不同群體,并針對不同對象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺,與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為昌邑企業(yè)提供專業(yè)的做網(wǎng)站、成都網(wǎng)站制作,昌邑網(wǎng)站改版等技術(shù)服務(wù)。擁有十載豐富建站經(jīng)驗(yàn)和眾多成功案例,為您定制開發(fā)。
編碼集
1. ASCII編碼:
127個(gè)字母 8個(gè)數(shù)據(jù)位足夠存儲字母、數(shù)字、符號,支持到0x7F。
2. GB2312編碼
每個(gè)漢字占據(jù)2個(gè)字節(jié)(高位和低位),16個(gè)數(shù)據(jù)。GB2312是對ASCII的中文擴(kuò)展,共包含7000多個(gè)漢字。是計(jì)算機(jī)發(fā)展到中國后發(fā)展起來的編碼,檢測高位和低位,如果同時(shí)大于0x7F,則認(rèn)為是GB2312,否則認(rèn)為是ASCII編碼。
相關(guān)推薦:《Python視頻教程》
3. GBK(1995)和GB18030(2005/2000)
每個(gè)漢字占據(jù)2個(gè)字節(jié),由于漢字的數(shù)量太大,GB2312不能滿足需求。GBK包括了GB2312的所有內(nèi)容,
同時(shí)增加了近20000個(gè)新的漢字(包括繁體)和符號 。只要求高位大于0x7F,低位可以小于0x7F,認(rèn)為是中文。
> 國家標(biāo)準(zhǔn)GB18030-2000《信息交換用漢字編碼字符集基本集的補(bǔ)充》是我國繼GB2312-1980和
GB13000-1993之后最重要的漢字編碼標(biāo)準(zhǔn),包含多種我國少數(shù)民族文字,其中收入漢字70000余個(gè)。
4.Unicode編碼
> 定長存儲, 將所有語言都統(tǒng)一到一套編碼集,通常使用2個(gè)字節(jié),有的是4個(gè)字節(jié)。收錄很全。
分為17個(gè)面,基本面采用2個(gè)字節(jié),普通中文子也在基本面中,另外16個(gè)面是4個(gè)字節(jié)。
不兼容ASCII碼,即存儲的時(shí)候,對ASCII碼前面補(bǔ)0,導(dǎo)致存儲的數(shù)據(jù)變大。
5. utf-8---變長存儲
> 國際標(biāo)準(zhǔn)組織(ISO)制定英文字符使用1個(gè)字節(jié),沿用原來的ASCII碼。
> 使用1~4個(gè)字節(jié)表示一個(gè)符號,中文存儲使用3個(gè)字節(jié)(ascii碼中的內(nèi)容用1個(gè)字節(jié)保存\歐洲的字符用2個(gè)字節(jié)保存\東亞的字符用3個(gè)字節(jié)保存\特殊符號用4個(gè)字節(jié))
> Unicode是內(nèi)存編碼表示方案(規(guī)范),而utf-8是如何保存和傳輸U(kuò)nicode的方案(實(shí)現(xiàn))
> 優(yōu)點(diǎn):雖然內(nèi)存匯總的數(shù)據(jù)都是Unicode,但當(dāng)數(shù)據(jù)保存到磁盤或者用于網(wǎng)絡(luò)傳輸時(shí),使用utf-8會節(jié)省更多的流量和硬盤空間。
如何判斷幾個(gè)字節(jié)表示一個(gè)字符:
每個(gè)字節(jié)添加識別位,其中高位識別位為4位,低位識別位為2位。判斷高位字節(jié)開頭有幾個(gè)1,可以確定共有幾個(gè)字節(jié)來表示一個(gè)字符。
6. utf-8和Unicode對應(yīng)關(guān)系
utf-8去掉識別位,變成unicode。
本文名稱:創(chuàng)新互聯(lián)Python教程:一文帶你了解編碼集
URL網(wǎng)址:http://www.5511xx.com/article/dpieeeg.html


咨詢
建站咨詢
