統一(yi)碼(ma)(ma)聯盟是一(yi)個致力(li)于開發,維護(hu),發展全球(qiu)通用軟件標準(zhun)和數據格式,特別是維護(hu)Unicode編碼(ma)(ma)標準(zhun)的非牟利(li)機(ji)構。統一(yi)碼(ma)(ma)聯盟制定了一(yi)種可以(yi)對全球(qiu)幾乎所有語言文字進行編碼(ma)(ma)的標準(zhun)。
其宗旨為最終以統(tong)一(yi)碼取代現存的(de)字符(fu)編(bian)(bian)碼。因為現存編(bian)(bian)碼不能夠(gou)在多語言(yan)計算機(ji)環境中使用,而且字符(fu)數有局限。同時(shi)它(ta)也制定了數種統(tong)一(yi)碼轉(zhuan)換格式(UTF,Unicode Transformation Format)。
Unicode是為(wei)了解決傳統的(de)字符編碼方(fang)案的(de)局限而產生的(de),例如ISO 8859-1所定(ding)義的(de)字符雖然在不同(tong)的(de)國(guo)家中廣泛(fan)地使用,可是在不同(tong)國(guo)家間卻經常出現不兼容的(de)情況。
很多(duo)(duo)傳統(tong)的(de)編(bian)碼(ma)方(fang)式都有一(yi)個共同的(de)問題(ti),即容(rong)許計(ji)算機處(chu)理雙語(yu)(yu)環(huan)境(jing)(通(tong)常使用(yong)拉丁字(zi)母以及其本(ben)地語(yu)(yu)言(yan)),但(dan)卻無法(fa)同時支持多(duo)(duo)語(yu)(yu)言(yan)環(huan)境(jing)(指可(ke)同時處(chu)理多(duo)(duo)種(zhong)語(yu)(yu)言(yan)混合的(de)情(qing)況)。Unicode編(bian)碼(ma)包含了(le)不同寫(xie)法(fa)的(de)字(zi),如“ɑ/a”、“強(qiang)/強(qiang)”、“戶(hu)/戶(hu)/戸”。然而(er)在漢字(zi)方(fang)面(mian)引起了(le)一(yi)字(zi)多(duo)(duo)形的(de)認定爭議(詳見中日韓統(tong)一(yi)表意文(wen)字(zi)主題(ti))。
在文(wen)(wen)字(zi)處(chu)理(li)方面(mian),統一(yi)碼為每一(yi)個(ge)字(zi)符(fu)而非字(zi)形(xing)定義唯一(yi)的代碼(即一(yi)個(ge)整數)。換(huan)句(ju)話說(shuo),統一(yi)碼以一(yi)種抽(chou)象的方式(即數字(zi))來(lai)處(chu)理(li)字(zi)符(fu),并(bing)將視覺上的演繹工作(例如字(zi)體大小、外觀形(xing)狀、字(zi)體形(xing)態、文(wen)(wen)體等)留(liu)給其(qi)他軟件來(lai)處(chu)理(li),例如網(wang)頁瀏覽器或是(shi)文(wen)(wen)字(zi)處(chu)理(li)器。
幾乎所(suo)有計算機系統都(dou)支(zhi)持(chi)(chi)基本拉丁字(zi)母(mu),并(bing)各自(zi)支(zhi)持(chi)(chi)不同的(de)其他編碼(ma)方式。Unicode為(wei)了(le)和它們相互兼容,其首256字(zi)符(fu)保留給ISO 8859-1所(suo)定義的(de)字(zi)符(fu),使既有的(de)西歐(ou)語系文(wen)字(zi)的(de)轉換(huan)不需特別考量;
并(bing)且把大(da)量(liang)相(xiang)同的(de)字符(fu)重復編到不(bu)同的(de)字符(fu)碼(ma)中去(qu),使得舊有紛雜的(de)編碼(ma)方式(shi)得以和Unicode編碼(ma)間互相(xiang)直接轉(zhuan)換,而不(bu)會丟失(shi)任何信息。舉例來說,全(quan)角格(ge)式(shi)區段(duan)包(bao)含了主要的(de)拉丁字母的(de)全(quan)角格(ge)式(shi),
在(zai)中文、日文、以(yi)(yi)及韓文字(zi)形當(dang)中,這(zhe)些字(zi)符以(yi)(yi)全(quan)角的(de)方式來呈(cheng)現,而不以(yi)(yi)常見的(de)半(ban)角形式顯示,這(zhe)對豎排文字(zi)和等寬排列文字(zi)有重要(yao)作(zuo)用(yong)。
在表示一(yi)個Unicode的字(zi)(zi)符時,通常會用“U+”然(ran)后緊接(jie)著一(yi)組(zu)十(shi)六(liu)進制的數字(zi)(zi)來表示這一(yi)個字(zi)(zi)符。在基本(ben)多文種(zhong)平(ping)面(英(ying)文:Basic Multilingual Plane,簡(jian)寫BMP。又稱為(wei)“零號平(ping)面”、plane 0)里(li)的所(suo)有字(zi)(zi)符,要用四(si)位十(shi)六(liu)進制數(例(li)如(ru)U+4AE0,共支持六(liu)萬多個字(zi)(zi)符);
在零號平(ping)面以外的字符(fu)則需要(yao)使用(yong)五位或六位十(shi)六進制數了(le)。舊(jiu)版的Unicode標準(zhun)使用(yong)相近的標記方法,但卻(que)有些(xie)微小差異:在Unicode 3.0里使用(yong)“U-”然后緊接著八(ba)位數,而“U+”則必須隨后緊接著四位數。
位于(yu)美國(guo)加州(zhou)的(de)Unicode組織允許任何(he)愿意支付(fu)會(hui)費的(de)公司和個人(ren)加入,其成員包含(han)了(le)主要的(de)計算機(ji)軟(ruan)硬(ying)件廠商(shang),例(li)如奧(ao)多比系統、蘋果公司、惠(hui)普、IBM、微軟(ruan)、施樂等。
20世紀(ji)80年代末,組成(cheng)Unicode組織的(de)商(shang)業機(ji)構,和(he)國(guo)際(ji)合作(zuo)的(de)國(guo)際(ji)標準(zhun)化組織因為計算機(ji)普及和(he)信息國(guo)際(ji)化的(de)前提(ti)下,分別(bie)各自成(cheng)立了Unicode組織和(he)ISO-10646工作(zuo)小組。
他們(men)不久(jiu)便發(fa)現對方的(de)(de)(de)存在,大家為著(zhu)相(xiang)同的(de)(de)(de)目的(de)(de)(de)而工作(zuo),于是兩(liang)(liang)(liang)個(ge)組織便共(gong)同合作(zuo)開發(fa)適(shi)用于各國語(yu)言的(de)(de)(de)通用碼(ma),而且“相(xiang)當有默契地”各自發(fa)表(biao)Unicode和ISO-10646字集。雖然實際(ji)上(shang)兩(liang)(liang)(liang)者的(de)(de)(de)字集編碼(ma)相(xiang)同,但(dan)實質(zhi)上(shang)兩(liang)(liang)(liang)者確實為兩(liang)(liang)(liang)個(ge)不同的(de)(de)(de)標準。
統一碼聯(lian)盟在1991年首次發布了The Unicode Standard。Unicode的(de)開發結合(he)了國際標準(zhun)化組織(zhi)所(suo)制定的(de)ISO/IEC 10646,即通用字符集。Unicode與(yu)ISO/IEC 10646在編碼的(de)運作原理相同,
但(dan)The Unicode Standard包含了(le)(le)(le)更詳盡的(de)實現信(xin)息、涵(han)蓋了(le)(le)(le)更細節的(de)主題(ti),諸如比(bi)特(te)編碼(bitwise encoding)、校(xiao)對以及呈現等。The Unicode Standard也(ye)枚(mei)舉了(le)(le)(le)諸多的(de)字符特(te)性,包含了(le)(le)(le)那些(xie)必須支持兩種閱讀(du)方向的(de)文(wen)字(由左至右或由右至左的(de)文(wen)字閱讀(du)方向,例(li)如阿拉伯文(wen)是由右至左)。Unicode與ISO/IEC 10646這兩個標(biao)準在術(shu)語上的(de)使用有(you)些(xie)微的(de)不同。
2005年,Unicode的第(di)十萬個字(zi)符(fu)被引入成為標準之(zhi)一,該字(zi)符(fu)被用于馬來亞(ya)拉姆語。
2020年,Unicode發布了13.0,共收錄(lu)143,859個字符。
統一(yi)碼聯盟(meng)由世界各(ge)(ge)地(di)主(zhu)要的(de)電(dian)腦(nao)制造商、軟件開(kai)發商、數據庫開(kai)發商、政(zheng)府部門(men)、研究機(ji)構、國(guo)際(ji)機(ji)構、各(ge)(ge)用(yong)戶組織(zhi)及個人(ren)組成。統一(yi)碼聯盟(meng)的(de)領導者及管理(li)人(ren)員來自各(ge)(ge)個組織(zhi)及行業,代表著(zhu)最廣泛的(de)編碼應用(yong)。
統一碼聯盟包含(han)三個技術委(wei)員會和一個編輯委(wei)員會:Unicode Technical Committee,Unicode CLDR Technical Committee,Unicode Localization Interoperability Technical CommitteeEditorial Committee.
統一碼聯盟積極與各標準制(zhi)訂機(ji)構合作,包(bao)括國際標準化組(zu)織(ISO)、國際電工委員會(IEC)、萬維網(wang)(wang)聯盟(W3C)、互聯網(wang)(wang)工程工作小組(zu)(IETF)和歐洲計算機(ji)制(zhi)造協會(ECMA)等。
The Unicode® Standard,Version 13.0 – Core Specification, The Unicode Consortium, Addison-Wesley Professional,ISBN 978-1-936213-26-9
The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional, Oct. 27, 2006.ISBN 978-0-321-48091-0
The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional, Aug. 27, 2003.ISBN 978-0-321-18578-5
《Unicode標準》(The Unicode Standard)
《字符數字庫》(Character Database)
《Unicode技(ji)術準備和報(bao)告》(Unicode Technical Standards and Reports)
《Unicode技(ji)術說明(ming)書》(Unicode Technical Notes)等等。
統(tong)一碼的成功讓計算機使用(yong)進入(ru)了(le)一個新紀元(yuan),并應(ying)用(yong)于很多新技(ji)術,如XML、Java編程語言和(he)現(xian)今的操作系統(tong)。