在計算機中,對非數(shù)值的文字和其他符號進行處理時,要對文字和符號進行數(shù)字化,即用二進制編碼來表示文字和符號。其中西文字符最常用到的編碼方案有ASCII編碼和EBCDIC編碼。對于漢字,我國也制定的相應(yīng)的編碼方案。 1、ASCII編碼 微機和小型計算機中普遍采用ASCII碼(American Standard Code for Information Interchange,美國信息交換標準代碼)表示字符數(shù)據(jù),該編碼被ISO(國際化標準組織)采納,作為國際上通用的信息交換代碼。 表1 ASCII碼表 ASCII碼是7位編碼,為了便于處理,我們在ASCII碼的最高位前增加1位0,湊成8位的一個字節(jié),所以,一個字節(jié)可存儲一個ASCII碼,也就是說一個字節(jié)可以存儲一個字符。ASCII碼是使用最廣的字符編碼,數(shù)據(jù)使用ASCII碼的文件稱為ASCII文件。 2、 ANSI編碼和其他擴展的ASCII碼 ANSI(美國國家標準協(xié)會)編碼是一種擴展的ASCII碼,使用8個比特來表示每個符號。8個比特能表示出256個信息單元,因此它可以對256個字符進行編碼。ANSI碼開始的128個字符的編碼和ASCII碼定義的一樣,只是在最左邊加了一個0。例如:在 ASCII編碼中,字符“a”用1100001表示,而在ANSI編碼中,則用01100001表示。除了ASCII碼表示的128個字符外,ANSI碼還可以表示另外的128個符號,如版權(quán)符號、英鎊符號、希臘字符等。 3、EBCDIC編碼盡管ASCII碼是計算機世界的主要標準,但在許多IBM大型機系統(tǒng)上卻沒有采用。在IBM System/360計算機中,IBM研制了自己的8位字符編碼——EBCDIC碼(Extended Binary Coded Decimal Interchange Code,擴展的二-十進制交換碼)。該編碼是對早期的BCDIC 6位編碼的擴展,其中一個字符的EBCDIC碼占用一個字節(jié),用8位二進制碼表示信息,一共可以表示出256 種字符。 4、Unicode編碼 在假定會有一個特定的字符編碼系統(tǒng)能適用于世界上所有語言的前提下,1988年,幾個主要的計算機公司一起開始研究一種替換ASCII碼的編碼,稱為Unicode編碼。鑒于ASCII碼是7位編碼,Unicode采用16位編碼,每一個字符需要2個字節(jié)。這意味著Unicode的字符編碼范圍從0000h~FFFFh,可以表示65536個不同字符。 3.4.6 國家標準漢字編碼(GB2312-80) 國家標準漢字編碼簡稱國標碼。該編碼集的全稱是“信息交換用漢字編碼字符—基本集”,國家標準號是“GB2312-80”。該編碼的主要用途是作為漢字信息交換碼使用。 5、 其他漢字編碼除了我們前面談到的國標碼之外,還有另外的一些漢字編碼方案。例如,在我國的臺灣地區(qū),就使用Big5漢字編碼方案。這種編碼就不同于我們的國標碼,因此在雙方的交流中就會涉及到漢字內(nèi)碼的轉(zhuǎn)換,特別是Internet的發(fā)展使人們更加關(guān)注這個問題?,F(xiàn)在雖然已經(jīng)推出了許多支持多內(nèi)碼的漢字操作系統(tǒng)平臺,但是全球漢字信息編碼的標準化已成為社會發(fā)展的必然趨勢。 |
|
來自: 吶喊oqzde1fbyd > 《計算機》