中文標準交換碼

维基百科,自由的百科全书
(重定向自國家標準中文交換碼
CNS 11643
别名中文標準交換碼
语言繁體中文
标准CNS 11643
分类ISO 2022雙位元組字元集中日韓統一表意文字
编码格式
其他相关编码Big5CCCII

中文標準交換碼Chinese Standard Interchange Code,簡稱CSIC),是中華民國國家標準11643號,簡稱CNS 11643,舊名通用漢字標準交換碼Chinese Ideographic Standard Code for Information Interchange,簡稱CISCII),是中華民國政府中文資訊處理制定的字元編碼方案,與許多學術圖書館系統採用的CCCII(中文資訊交換碼)同屬於中文交換碼。CSIC基于ISO 2022定义,和ASCII相容,其EUC版本為EUC-TW

簡介

1980年9月,行政院國家科學委員會集合編碼專家、學者在溪頭舉行會議,建立國家中文資訊標準交換碼的編碼原則,並報請行政院核定。隔年,行政院函令國科會教育部中央標準局主計處電子處理資料中心組成專案作業小組,推動編碼工作。經多次會商,於1983年10月底完成「通用漢字標準交換碼」的試用版,試行二年。試用期滿後,國科會與主計處電資中心邀集相關單位與業者組成技術小組,檢討試用結果,並根據檢討結果修訂編碼原則予以重編。1986年8月4日由經濟部中央標準局(後改名為標準檢驗局)正式公佈,取名「通用漢字標準交換碼」,其內容包括第一字面、第二字面共13,051字[1]

1980年代萬「碼」奔騰,業界使用各種不同的內碼,如大五碼王安碼IBM 5550碼電信碼倚天碼等;CNS11643與大五碼字數相同(大五碼有13,053字,但有兩個重碼)。藉由此國家標準交換碼的公布與使用,做為各種不同內碼間的橋梁,使得不同的內碼也可以互相溝通和交換,資料可共享。

為因應各界對擴大中文字元集的需求,中央標準局於1990年委託資訊工業策進會進行擴編。CNS 11643於1992年使用至第七字面,共48,027字,並更名為「中文標準交換碼」。2003年,標準檢驗局委託中文數位化技術推廣基金會再次擴編,於2004年推出新版的CNS11643,將編碼空間由原先規定的十六字面增加到八十字面,並使用至第十五字面。2014年,使用第十七、十九字面。2021年,使用第二十四字面[2][3]

「CNS11643中文交換碼全字庫」為1999年時,由主計處電資中心委託中文數位化技術推廣基金會建置,用以解決中文碼查詢、轉碼與缺字問題。為配合2012年的行政院組織改造,全字庫改由研考會辦理,自2014年又由繼承研考會業務的國家發展委員會管理。2022年8月27日數位發展部成立後,網站管理機構調整為數位部[4]。全字庫目前已收納10萬8,800多個文字及符號。若扣除第八和第九字面中的非漢字字元以及第一字面中的符號注音部首漢字構件等字元,以有倉頡碼屬性的字來計算,大約有9萬6,600多個漢字[5][6]

版本

年份 標準名稱 更改
1983 CNS11643-1983 通用漢字標準交換碼試用版推出,包括13,053字及441個符號,12月推出的大五碼,字集與字序與交換碼試用版完全相同,僅字碼定義不同。
1986 CNS11643-1986 通用漢字標準交換碼正式版發行,包括13,051個字(刪除2個重複字,調整20個字順序)與441個符號,其餘均與試用版相同。
1988 CNS11643-1986 增加第十四字面使用者加字區交換碼,共增加6,148字。
1989 CNS11643-1986 再增加第十四字面使用者加字區交換碼,共增加157字。
1992 CNS11643-1992 擴充第3至7字面,增加部首和數字符號,並更換名稱為中文標準交換碼,總共包括48,027個字與684個符號。
2002 CNS14649 國際標準ISO 10646/Unicode的中文版「CNS 14649廣用多八位元編碼字元集」推出,包括中、日、韓、越等20,902個漢字,及全球使用的字元。
2004 CNS11643-2004 編碼架構擴充至八十字面。
2008 CNS11643-2008 擴充版發行,增加了戶政用字與異體字等。

編碼格式

CNS 11643遵循ISO/IEC 2022所規定的七位元94個圖形字元英语Graphic character多位元組延伸編碼格式[3],以2個位元組 (byte)為中文碼編碼單位,以十六進位制文數字表示,並且避開控制碼所在的範圍。字面字集之排列,大抵以使用頻率為次序,第一字面以常用字為主,第二字面以次常用字為主,第三字面以部分罕用字及較常用異體字為主,其後的字面大多以罕用字、異體字、教育部閩客語用字及戶政、役政、地政等機關用字為主。在每一字面中,依先筆畫後部首排列順序來編訂字碼(每一字面均以文字筆畫總數為第一次序,筆劃數同則按照部首為次序,部首同再按照筆順為次序)[7]

CNS 11643採用多字面編碼結構,並藉助ISO/IEC 2022所規定的逸出順序(escape sequence)和調用控制符切換字面。因此,同樣的正規字元碼在CNS 11643的不同字面會代表不同的漢字(例如:第1字面字元碼454A為中文字「日」,而第2字面的454A是中文字「碇」)。CNS 11643在新版中規定了延伸字元碼,作為任一字元的唯一字元碼。CSIC延伸字元碼是在正規字元碼前,附加該字元所屬字面的字面指示碼[3]

終結字元

目前 CNS11643 的1~7 字面之終結字元(最後字元、最終位元組) [F] 已獲國際標準組織 ISO 正式登記為 47 至 4D ,亦可使用於字集之指定[7][8]。依據ISO 237之規定,各國的國家標準若要成為國際間之中文資訊交換標準,必須向國際標準組織申請註冊,並由國際標準組織正式公佈,如此全球各國即可依國際標準公佈之終結字元進行資料交換。

CNS 11643-1992所包括的七個字面,每個字面均分別向ISO秘書處歐洲計算機製造商協會申請相對應之終結字元。經由資訊工業策進會之協助申請,1993年2月1日CNS 11643第一、第二字面正式獲得終結字元:47和48,1994年3月25日CNS 11643第三至第七字面也正式獲得終結字元:49 - 4D。

CNS字面 CNS暫用終結字元 ISO正式終結字元
第一字面 30 47
第二字面 31 48
第三字面 32 49
第四字面 33 4A
第五字面 34 4B
第六字面 35 4C
第七字面 36 4D

最新版本

2021年版CNS 11643字面配置如下:

  • 第一字面:字碼區間2121h至4243h為符號區(2009年在4242h新增歐元符號€,4243h新增國字);字碼區間4421h至7D4Bh,共編入中文字5,401個;字集來源除教育部常用國字標準字體表」所列4,808字外,並優先收編國中國小教科書常用字587字及異體字6字。另外在2009年,在字碼4244h至4254h,增補閩南語用拉丁符號17個[9]
  • 第二字面:字碼區間由2121h至7244h,故編入中文字7,650個;字集來源除教育部「次常用國字標準字體表」所列6,330字外,並篩選編入教育部「罕用國字標準字體表」表中使用頻率較高之1,320字。
  • 第三字面:字碼區間2121h至6246h,共編入中文字6,148個;字集來源為1988年6月行政院主計處電子處理資料中心暫編之使用者加字區第14字面前段;字碼區間6448h至672Ah為247個美國香港提報字[10]
  • 第四字面:字碼區間2121h至6E5Ch,共編入中文字7,298個;字集來源除1988年6月行政院主計處電子處理資料中心暫編之使用者加字區第14字面後段171字外,並加入戶役政及其他使用單位、ISO/IEC 10646-2:2001漢字集、資訊業次常用字7,127字。
  • 第五字面:字碼區間2121h至7C51h,目前編入中文字8,603個字;字集來源為未編入前4個字面之教育部罕用字
  • 第六字面:字碼區間2121h至647Ah,共編入中文字6,388個;字集來源為未編入前5個字面,且筆畫在14畫或以下之教育部異體字。
  • 第七字面:字碼區間2121h至6655h,共編入中文字6,539個;字集來源為未編入前6個字面,且筆畫在15畫或以上之教育部異體字。
  • 第八字面:編入ISO/IEC 10646:2003 基本多文種平面中,未收錄到原CNS 11643版本中的非漢字。
  • 第九字面:字碼區間2121h至3557h,編入ISO/IEC 10646:2003 基本多文種平面中,未收錄到原CNS 11643版本中的非漢字;字碼區間7455h至7E7Eh,編入戶政字。
  • 第十字面:編入ISO/IEC 10646:2003未收錄到原CNS 11643版本中的CJK Extension B漢字。
  • 第十一字面:編入未收錄到原CNS 11643版本中的CJK Extension B, C, D漢字與地政字、教育部閩南語客家語母語用字。
  • 第十二字面:為戶政字,字碼區間6249h至627Eh,編入未收錄到原CNS 11643版本中的CJK Extension C漢字。
  • 第十三字面:為戶政字。
  • 第十四字面:為戶政字,字碼區間4B6Dh至6D79h,編入未收錄到原CNS 11643版本中的CJK基本區、CJK Extension A、CJK Extension C和CJK基本區急用漢字。
  • 第十五字面:字碼區間2121h至6D39h,共編入中文字6,831個戶政、役政用字;字碼區間6D3Ah至7E3Ch,編入未收錄到原CNS 11643版本中的CJK Extension C漢字。
  • 第十六字面:私人造字區。
  • 第十七字面:2014年起開始使用,屬於內政部戶政、地政等字。
  • 第十九字面:2014年起開始使用,屬於教育部異體字。
  • 第二十四字面:2021年起開始使用,2121h為醫藥用字;2122h至2123h為元素、化學、符號用字。[11]
  • 第18、20至23、25至80字面保留供未來使用。

與BIG-5之關係

五大專案碼(BIG-5)為資訊工業策進會與臺灣十三家資訊業者簽約,共同為「五大軟體專案」所設計的中文內碼。該內碼於1983年12月推出,共收錄13,053個漢字(有兩字重複編碼,故實際上只有13,051個字)、408個符號、33個控制字元[12],其字元的範圍與順序都和1983年10月推出的「通用漢字標準交換碼」試用版相同,但碼位不同。「通用漢字標準交換碼」在1986年推出正式版,刪除試用版的2個重複編碼字,調整了20個字的順序。

大五碼後來成為繁體中文社群最常用的電腦漢字字集標準,然而所涵蓋的字數不敷實際需求,造成廠商各自增刪,衍生成多種不同版本。2003年中文數位化技術推廣基金會接受經濟部標準檢驗局委託,召集國內業者代表、專家和學者,就BIG-5字元表的原始版本和業界主要版本予以重整,稱為Big5-2003[13]。重整後的版本,去除了重複編碼,並新增7個中文字,以及370個符號,包括30個數字符號、24個部首、14個罕用符號、268個日本假名,以及34個表格符號[12]。其成果最後收錄至CNS 11643的附錄之中[14]

參看

資料來源

  1. ^ 余保倫. 與文字共舞-中文數位化發展簡介 (PDF). 中華民國統計資訊網. [2022-12-16]. (原始内容存档 (PDF)于2022-12-16). 
  2. ^ 存档副本. [2015-03-28]. (原始内容存档于2015-04-02). 
  3. ^ 3.0 3.1 3.2 曾士熊. 認識中文字元碼:十、中文標準交換碼(CNS 11643). [2022-12-16]. (原始内容存档于2022-05-28). 
  4. ^ 全字庫中文標準交換碼. 全字庫介紹. [2022-12-16]. (原始内容存档于2022-12-16). 
  5. ^ 全字庫現況. [2022-12-16]. (原始内容存档于2023-01-27). 
  6. ^ 全字庫中文標準交換碼 - 中文碼現況. [2022-12-17]. (原始内容存档于2022-12-17). 現有字數:現行全字庫中,戶政與地政部分用字經檢查為認同字,因而刪除該碼位資料,但仍保留該碼位的位置,現有字數即去除這些被認同掉的字碼,所計算得到的總字數……全字庫第八字面和第九字面所儲存的是拼音文字,所以沒有注音、倉頡等屬性資料碼位個數 
  7. ^ 7.0 7.1 認識全字庫>中文碼介紹. [2022-12-17]. (原始内容存档于2021-05-14). 
  8. ^ 附錄1﹕中文字碼處理說明 (PDF). [2022-12-17]. (原始内容存档 (PDF)于2022-12-17). 
  9. ^ 存档副本. [2021-12-12]. (原始内容存档于2022-07-14). 
  10. ^ 存档副本. [2021-12-12]. (原始内容存档于2022-07-14). 
  11. ^ 存档副本. [2021-12-12]. (原始内容存档于2022-07-10). 
  12. ^ 12.0 12.1 曾士熊. 認識中文字元碼: 九、Big5和Big5E. [2022-12-17]. (原始内容存档于2022-05-28). 
  13. ^ 認識全字庫>中文碼介紹. [2022-12-17]. (原始内容存档于2021-05-14). 
  14. ^ 謝東翰. 預覽「Big5 2003」. [2022-12-17]. (原始内容存档于2022-12-17). 

外部連結