統一碼聯盟是一個致力于開發(fa),維護,發(fa)展全球通(tong)用軟(ruan)件標(biao)準(zhun)和數據格(ge)式,特別是維護Unicode編(bian)(bian)碼標(biao)準(zhun)的(de)(de)非牟利機構(gou)。統一碼聯盟制定了(le)一種可以對(dui)全球幾乎所有語(yu)言文字進行編(bian)(bian)碼的(de)(de)標(biao)準(zhun)。
其(qi)宗旨為最終以統(tong)一碼(ma)取代(dai)現存(cun)的字符編碼(ma)。因為現存(cun)編碼(ma)不能夠在多語言計算機環(huan)境中使用,而且字符數有(you)局限。同時它也制定了數種統(tong)一碼(ma)轉換格式(shi)(UTF,Unicode Transformation Format)。
Unicode是為了解決傳統(tong)的(de)(de)(de)字符編碼方案的(de)(de)(de)局限(xian)而產生的(de)(de)(de),例如(ru)ISO 8859-1所定(ding)義的(de)(de)(de)字符雖然在(zai)不(bu)同的(de)(de)(de)國(guo)家中廣泛(fan)地使用,可是在(zai)不(bu)同國(guo)家間(jian)卻經常出(chu)現不(bu)兼容的(de)(de)(de)情(qing)況。
很(hen)多傳統(tong)的(de)(de)編(bian)(bian)碼方(fang)式(shi)都有(you)一個共同(tong)的(de)(de)問題,即(ji)容許計算機處理(li)雙語(yu)環境(jing)(jing)(通(tong)常使用拉(la)丁字(zi)母以及(ji)其本地語(yu)言(yan)(yan)),但卻無法同(tong)時支持多語(yu)言(yan)(yan)環境(jing)(jing)(指可同(tong)時處理(li)多種語(yu)言(yan)(yan)混合的(de)(de)情況)。Unicode編(bian)(bian)碼包含了不(bu)同(tong)寫法的(de)(de)字(zi),如“ɑ/a”、“強(qiang)/強(qiang)”、“戶/戶/戸”。然(ran)而在漢字(zi)方(fang)面引起(qi)了一字(zi)多形的(de)(de)認定爭議(詳見(jian)中日韓(han)統(tong)一表意文字(zi)主題)。
在文(wen)字(zi)(zi)處理(li)方面,統一碼(ma)為每一個字(zi)(zi)符而非字(zi)(zi)形(xing)定義唯一的(de)(de)代碼(ma)(即一個整數)。換句話說(shuo),統一碼(ma)以一種抽(chou)象的(de)(de)方式(即數字(zi)(zi))來(lai)處理(li)字(zi)(zi)符,并將視覺上的(de)(de)演繹(yi)工(gong)作(例如字(zi)(zi)體大(da)小、外觀形(xing)狀、字(zi)(zi)體形(xing)態(tai)、文(wen)體等)留給其他軟件(jian)來(lai)處理(li),例如網頁瀏覽器(qi)或是(shi)文(wen)字(zi)(zi)處理(li)器(qi)。
幾(ji)乎所(suo)有計算(suan)機系(xi)統都支持基本拉丁(ding)字(zi)母(mu),并各自支持不同的其他(ta)編(bian)碼方(fang)式。Unicode為了和它們相互兼容(rong),其首256字(zi)符保留給ISO 8859-1所(suo)定義的字(zi)符,使既有的西歐語系(xi)文(wen)字(zi)的轉換不需特別考量;
并且把大量相(xiang)同(tong)的(de)(de)(de)字(zi)(zi)符重(zhong)復編到不同(tong)的(de)(de)(de)字(zi)(zi)符碼(ma)中去,使得舊(jiu)有(you)紛雜的(de)(de)(de)編碼(ma)方式(shi)(shi)得以和Unicode編碼(ma)間互相(xiang)直接轉(zhuan)換(huan),而不會丟失任何信息。舉例來說(shuo),全角(jiao)格式(shi)(shi)區(qu)段包含了主(zhu)要的(de)(de)(de)拉(la)丁(ding)字(zi)(zi)母的(de)(de)(de)全角(jiao)格式(shi)(shi),
在中文(wen)、日文(wen)、以及(ji)韓(han)文(wen)字(zi)(zi)形當中,這些字(zi)(zi)符以全角的方式(shi)來呈(cheng)現,而不以常見的半角形式(shi)顯(xian)示,這對豎排文(wen)字(zi)(zi)和等寬排列(lie)文(wen)字(zi)(zi)有重要作用。
在表示(shi)(shi)一(yi)個(ge)(ge)(ge)Unicode的(de)字符(fu)時,通(tong)常(chang)會用(yong)(yong)“U+”然后緊接著一(yi)組十六(liu)進制的(de)數字來表示(shi)(shi)這一(yi)個(ge)(ge)(ge)字符(fu)。在基本多(duo)文種平(ping)面(英文:Basic Multilingual Plane,簡寫BMP。又(you)稱為“零號平(ping)面”、plane 0)里的(de)所有字符(fu),要用(yong)(yong)四位十六(liu)進制數(例如U+4AE0,共支持六(liu)萬(wan)多(duo)個(ge)(ge)(ge)字符(fu));
在(zai)(zai)零號平面以外的(de)(de)字符(fu)則(ze)需(xu)要使(shi)用五位(wei)或六位(wei)十六進制數(shu)了(le)。舊(jiu)版的(de)(de)Unicode標(biao)(biao)準使(shi)用相近的(de)(de)標(biao)(biao)記方法,但卻有些微小差異(yi):在(zai)(zai)Unicode 3.0里使(shi)用“U-”然后緊(jin)接著八位(wei)數(shu),而“U+”則(ze)必須隨后緊(jin)接著四位(wei)數(shu)。
位于美國(guo)加州的(de)(de)Unicode組織允(yun)許任何愿意支付會費的(de)(de)公司和個人加入,其成員包(bao)含了(le)主(zhu)要的(de)(de)計算(suan)機軟(ruan)硬件廠商,例(li)如(ru)奧多比(bi)系統、蘋果公司、惠普、IBM、微(wei)軟(ruan)、施樂(le)等。
20世(shi)紀(ji)80年代末,組(zu)(zu)成Unicode組(zu)(zu)織(zhi)的商(shang)業機(ji)構,和國(guo)際合作(zuo)的國(guo)際標準化(hua)組(zu)(zu)織(zhi)因為計算機(ji)普及和信息國(guo)際化(hua)的前提下,分(fen)別各自成立了Unicode組(zu)(zu)織(zhi)和ISO-10646工作(zuo)小組(zu)(zu)。
他們(men)不(bu)(bu)久(jiu)便發(fa)現對(dui)方的(de)存在,大家(jia)為著相同(tong)的(de)目的(de)而工作,于是兩個(ge)組(zu)織便共同(tong)合作開發(fa)適用于各(ge)國語言的(de)通用碼,而且(qie)“相當有默(mo)契地”各(ge)自發(fa)表Unicode和ISO-10646字集(ji)。雖然實(shi)際上(shang)兩者的(de)字集(ji)編碼相同(tong),但實(shi)質上(shang)兩者確(que)實(shi)為兩個(ge)不(bu)(bu)同(tong)的(de)標準。
統一碼聯盟在1991年首次發(fa)布了(le)The Unicode Standard。Unicode的開發(fa)結合了(le)國際標準化組織(zhi)所制定的ISO/IEC 10646,即通用(yong)字符集。Unicode與ISO/IEC 10646在編(bian)碼的運作(zuo)原理相同,
但The Unicode Standard包含了(le)(le)(le)更詳盡的實現(xian)信息、涵蓋了(le)(le)(le)更細(xi)節的主題,諸如(ru)(ru)比特編碼(bitwise encoding)、校(xiao)對以(yi)及呈現(xian)等(deng)。The Unicode Standard也枚(mei)舉了(le)(le)(le)諸多的字符(fu)特性(xing),包含了(le)(le)(le)那些(xie)必(bi)須支持兩種閱(yue)讀方向的文(wen)字(由左(zuo)至右(you)或由右(you)至左(zuo)的文(wen)字閱(yue)讀方向,例如(ru)(ru)阿拉伯文(wen)是由右(you)至左(zuo))。Unicode與(yu)ISO/IEC 10646這兩個標準在術語(yu)上的使用有些(xie)微(wei)的不(bu)同。
2005年(nian),Unicode的第十萬(wan)個字符(fu)(fu)被(bei)(bei)引入(ru)成為標(biao)準之一,該字符(fu)(fu)被(bei)(bei)用于馬來亞拉姆語。
2020年,Unicode發布了13.0,共收錄143,859個字符。
統一(yi)碼聯盟由(you)世界各地主要的電腦(nao)制造商、軟件開發商、數(shu)據庫開發商、政府部(bu)門、研究(jiu)機構(gou)、國際機構(gou)、各用戶(hu)組(zu)(zu)織(zhi)(zhi)及個(ge)(ge)人組(zu)(zu)成(cheng)。統一(yi)碼聯盟的領導(dao)者及管理人員(yuan)來自各個(ge)(ge)組(zu)(zu)織(zhi)(zhi)及行(xing)業(ye),代(dai)表著最廣(guang)泛的編碼應(ying)用。
統一(yi)碼聯盟包(bao)含三個技術委(wei)員會和一(yi)個編(bian)輯委(wei)員會:Unicode Technical Committee,Unicode CLDR Technical Committee,Unicode Localization Interoperability Technical CommitteeEditorial Committee.
統一碼聯盟積極與各標準制訂機構合(he)作,包(bao)括國際標準化組織(ISO)、國際電(dian)工委員(yuan)會(hui)(hui)(IEC)、萬維網聯盟(W3C)、互聯網工程工作小組(IETF)和歐洲計算(suan)機制造協會(hui)(hui)(ECMA)等。
The Unicode® Standard,Version 13.0 – Core Specification, The Unicode Consortium, Addison-Wesley Professional,ISBN 978-1-936213-26-9
The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional, Oct. 27, 2006.ISBN 978-0-321-48091-0
The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional, Aug. 27, 2003.ISBN 978-0-321-18578-5
《Unicode標(biao)準(zhun)》(The Unicode Standard)
《字符(fu)數字庫》(Character Database)
《Unicode技術準備(bei)和(he)報告》(Unicode Technical Standards and Reports)
《Unicode技術(shu)說明書》(Unicode Technical Notes)等等。
統一碼的成功讓(rang)計算機(ji)使用進入了一個新紀元,并應用于(yu)很多新技術,如(ru)XML、Java編程語言(yan)和現(xian)今(jin)的操作系(xi)統。