統一(yi)碼聯(lian)盟是一(yi)個致力于開(kai)發,維(wei)護,發展全球通(tong)用軟件標準(zhun)(zhun)和(he)數據(ju)格式,特別是維(wei)護Unicode編(bian)碼標準(zhun)(zhun)的非(fei)牟利機構。統一(yi)碼聯(lian)盟制定了一(yi)種可以對全球幾乎所有(you)語言文字進行(xing)編(bian)碼的標準(zhun)(zhun)。
其宗旨為(wei)最終以統(tong)一碼(ma)取代現存的(de)字符(fu)編碼(ma)。因為(wei)現存編碼(ma)不能夠在多(duo)語言計算機環境中使用,而且字符(fu)數有(you)局限。同時它也(ye)制(zhi)定(ding)了數種統(tong)一碼(ma)轉換格(ge)式(shi)(UTF,Unicode Transformation Format)。
Unicode是(shi)為了解(jie)決傳統的(de)字(zi)符編碼(ma)方案的(de)局(ju)限而產生的(de),例如ISO 8859-1所定義的(de)字(zi)符雖然在(zai)不(bu)同的(de)國家(jia)中廣泛(fan)地(di)使用,可(ke)是(shi)在(zai)不(bu)同國家(jia)間卻(que)經常出現不(bu)兼(jian)容的(de)情況(kuang)。
很多傳統的編(bian)碼方式都(dou)有一個共同(tong)的問題,即容許計算機處理雙語(yu)環境(jing)(通常使用拉丁字母(mu)以及其本地(di)語(yu)言(yan)),但卻無法(fa)同(tong)時(shi)支持多語(yu)言(yan)環境(jing)(指可(ke)同(tong)時(shi)處理多種(zhong)語(yu)言(yan)混(hun)合的情況)。Unicode編(bian)碼包含了(le)不同(tong)寫法(fa)的字,如(ru)“ɑ/a”、“強/強”、“戶(hu)/戶(hu)/戸”。然而在漢字方面引起了(le)一字多形的認定爭(zheng)議(詳見中日韓統一表意(yi)文字主題)。
在文(wen)字(zi)(zi)(zi)處(chu)(chu)理方面,統(tong)一(yi)碼(ma)為(wei)每(mei)一(yi)個字(zi)(zi)(zi)符而非字(zi)(zi)(zi)形定義唯一(yi)的(de)代碼(ma)(即(ji)一(yi)個整數)。換句話說,統(tong)一(yi)碼(ma)以一(yi)種抽(chou)象的(de)方式(即(ji)數字(zi)(zi)(zi))來處(chu)(chu)理字(zi)(zi)(zi)符,并將視覺上(shang)的(de)演繹工作(例如字(zi)(zi)(zi)體大小、外觀(guan)形狀(zhuang)、字(zi)(zi)(zi)體形態(tai)、文(wen)體等)留給(gei)其他軟件(jian)來處(chu)(chu)理,例如網(wang)頁瀏覽(lan)器(qi)或是文(wen)字(zi)(zi)(zi)處(chu)(chu)理器(qi)。
幾乎所(suo)有計算機(ji)系統(tong)都(dou)支(zhi)(zhi)持(chi)基本(ben)拉丁字(zi)(zi)母,并各(ge)自支(zhi)(zhi)持(chi)不同的(de)其(qi)他編碼方式。Unicode為(wei)了和(he)它們相互兼(jian)容,其(qi)首256字(zi)(zi)符保留給ISO 8859-1所(suo)定義(yi)的(de)字(zi)(zi)符,使既有的(de)西歐(ou)語(yu)系文字(zi)(zi)的(de)轉換(huan)不需特別考量;
并且把大量(liang)相同的字符重復編(bian)到(dao)不同的字符碼中(zhong)去,使得舊(jiu)有紛雜的編(bian)碼方式得以和Unicode編(bian)碼間互(hu)相直接轉換,而不會丟失(shi)任何信息。舉例來(lai)說(shuo),全角格(ge)式區段包含了主要的拉丁字母的全角格(ge)式,
在中文(wen)、日(ri)文(wen)、以(yi)及韓(han)文(wen)字(zi)形當中,這(zhe)(zhe)些字(zi)符以(yi)全角的方式(shi)來呈現,而不以(yi)常見的半角形式(shi)顯示,這(zhe)(zhe)對豎排(pai)文(wen)字(zi)和等寬排(pai)列文(wen)字(zi)有重要作用。
在表示一個Unicode的(de)字符(fu)時,通常會用“U+”然后緊接著一組十六進(jin)制的(de)數(shu)字來表示這(zhe)一個字符(fu)。在基本多(duo)文(wen)種平(ping)面(英(ying)文(wen):Basic Multilingual Plane,簡(jian)寫BMP。又稱為(wei)“零號平(ping)面”、plane 0)里的(de)所有字符(fu),要用四位十六進(jin)制數(shu)(例如(ru)U+4AE0,共(gong)支持六萬多(duo)個字符(fu));
在零號平面以外(wai)的(de)字(zi)符(fu)則(ze)需(xu)要使(shi)用(yong)五位(wei)或六位(wei)十(shi)六進制數(shu)(shu)了。舊版的(de)Unicode標準使(shi)用(yong)相近的(de)標記(ji)方法,但卻(que)有些微小差異:在Unicode 3.0里使(shi)用(yong)“U-”然(ran)后緊接著八(ba)位(wei)數(shu)(shu),而“U+”則(ze)必須隨(sui)后緊接著四位(wei)數(shu)(shu)。
位于美國加州的Unicode組織(zhi)允(yun)許任(ren)何(he)愿意支付會費的公司和(he)個人加入,其(qi)成員(yuan)包(bao)含了主要的計(ji)算機軟(ruan)(ruan)硬件廠(chang)商,例(li)如奧多比系統、蘋果公司、惠(hui)普、IBM、微軟(ruan)(ruan)、施(shi)樂等。
20世紀(ji)80年(nian)代末,組(zu)成(cheng)Unicode組(zu)織(zhi)的(de)(de)商(shang)業機構,和國(guo)際合(he)作(zuo)的(de)(de)國(guo)際標準(zhun)化組(zu)織(zhi)因為計(ji)算(suan)機普及(ji)和信(xin)息國(guo)際化的(de)(de)前提下,分別各自成(cheng)立了Unicode組(zu)織(zhi)和ISO-10646工作(zuo)小組(zu)。
他們不久便發(fa)現對(dui)方的(de)(de)存在,大家為著相同(tong)的(de)(de)目的(de)(de)而工(gong)作,于是兩個(ge)組織便共同(tong)合作開發(fa)適用(yong)于各國語(yu)言(yan)的(de)(de)通用(yong)碼(ma),而且“相當有默契地”各自發(fa)表Unicode和ISO-10646字集。雖然實際(ji)上(shang)兩者的(de)(de)字集編碼(ma)相同(tong),但(dan)實質上(shang)兩者確實為兩個(ge)不同(tong)的(de)(de)標準。
統一碼聯盟在(zai)1991年(nian)首次(ci)發(fa)布(bu)了The Unicode Standard。Unicode的(de)開(kai)發(fa)結合了國際標準化(hua)組織所(suo)制(zhi)定的(de)ISO/IEC 10646,即(ji)通用字符集。Unicode與ISO/IEC 10646在(zai)編(bian)碼的(de)運作(zuo)原理相同(tong),
但The Unicode Standard包含了(le)(le)更詳(xiang)盡的(de)實(shi)現信息、涵蓋(gai)了(le)(le)更細(xi)節的(de)主題,諸如比特編碼(bitwise encoding)、校對以及(ji)呈現等。The Unicode Standard也枚舉了(le)(le)諸多的(de)字符特性(xing),包含了(le)(le)那(nei)些必(bi)須支持兩(liang)種閱(yue)讀(du)方(fang)向(xiang)的(de)文(wen)字(由(you)左至右(you)或由(you)右(you)至左的(de)文(wen)字閱(yue)讀(du)方(fang)向(xiang),例如阿(a)拉(la)伯文(wen)是由(you)右(you)至左)。Unicode與ISO/IEC 10646這兩(liang)個標(biao)準在術(shu)語上(shang)的(de)使用有些微(wei)的(de)不同。
2005年,Unicode的第十萬個字符被(bei)引(yin)入成為(wei)標準之(zhi)一,該字符被(bei)用于馬來亞拉(la)姆語。
2020年,Unicode發布了13.0,共收錄143,859個字符。
統(tong)一碼(ma)聯(lian)盟(meng)由世界各(ge)地主要的電腦制造商、軟件開發商、數據庫開發商、政(zheng)府(fu)部門、研(yan)究機(ji)構、國際機(ji)構、各(ge)用戶組(zu)織(zhi)及個(ge)人組(zu)成。統(tong)一碼(ma)聯(lian)盟(meng)的領導者及管理人員來自各(ge)個(ge)組(zu)織(zhi)及行業,代表著最廣泛的編碼(ma)應用。
統一碼聯盟包含三個技術(shu)委員會和(he)一個編輯委員會:Unicode Technical Committee,Unicode CLDR Technical Committee,Unicode Localization Interoperability Technical CommitteeEditorial Committee.
統一(yi)碼聯盟積極與各標準(zhun)制訂機(ji)(ji)構合作(zuo),包括國際標準(zhun)化組(zu)織(ISO)、國際電工委(wei)員會(IEC)、萬維網(wang)聯盟(W3C)、互聯網(wang)工程工作(zuo)小組(zu)(IETF)和(he)歐洲(zhou)計(ji)算機(ji)(ji)制造協會(ECMA)等(deng)。
The Unicode® Standard,Version 13.0 – Core Specification, The Unicode Consortium, Addison-Wesley Professional,ISBN 978-1-936213-26-9
The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional, Oct. 27, 2006.ISBN 978-0-321-48091-0
The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional, Aug. 27, 2003.ISBN 978-0-321-18578-5
《Unicode標準》(The Unicode Standard)
《字符數字庫(ku)》(Character Database)
《Unicode技術(shu)準備和報告》(Unicode Technical Standards and Reports)
《Unicode技術說明書》(Unicode Technical Notes)等等。
統一碼的成(cheng)功讓計算機(ji)使(shi)用(yong)(yong)進入了一個新紀(ji)元,并應(ying)用(yong)(yong)于很多新技術,如XML、Java編程語言和現今的操作系統。