中文標準交換碼

**CNS 11643**
别名	中文標準交換碼
语言	繁體中文
标准	CNS 11643
分类	ISO 2022、雙位元組字元集、中日韓統一表意文字
编码格式	EUC-TW (所有字面); ISO-2022-CN-EXT (字面1–7); ISO-2022-CN (字面1和字面2);
其他相关编码	Big5、CCCII
	查; 论; 编;

中文標準交換碼（Chinese Standard Interchange Code，簡稱CSIC），是中華民國國家標準11643號，簡稱CNS 11643，舊名通用漢字標準交換碼（Chinese Ideographic Standard Code for Information Interchange，簡稱CISCII），是中華民國政府為中文資訊處理制定的字元編碼方案，與許多學術圖書館系統採用的CCCII（中文資訊交換碼）同屬於中文交換碼。CSIC基于ISO 2022定义，和ASCII相容，其EUC版本為EUC-TW。

簡介

1980年9月，行政院國家科學委員會集合編碼專家、學者在溪頭舉行會議，建立國家中文資訊標準交換碼的編碼原則，並報請行政院核定。隔年，行政院函令國科會、教育部、中央標準局及主計處電子處理資料中心組成專案作業小組，推動編碼工作。經多次會商，於1983年10月底完成「通用漢字標準交換碼」的試用版，試行二年。試用期滿後，國科會與主計處電資中心邀集相關單位與業者組成技術小組，檢討試用結果，並根據檢討結果修訂編碼原則予以重編。1986年8月4日由經濟部中央標準局（後改名為標準檢驗局）正式公佈，取名「通用漢字標準交換碼」，其內容包括第一字面、第二字面共13,051字^[1]。

1980年代萬「碼」奔騰，業界使用各種不同的內碼，如大五碼、王安碼、IBM 5550碼、電信碼、倚天碼等；CNS11643與大五碼字數相同（大五碼有13,053字，但有兩個重碼）。藉由此國家標準交換碼的公布與使用，做為各種不同內碼間的橋梁，使得不同的內碼也可以互相溝通和交換，資料可共享。

為因應各界對擴大中文字元集的需求，中央標準局於1990年委託資訊工業策進會進行擴編。CNS 11643於1992年使用至第七字面，共48,027字，並更名為「中文標準交換碼」。2003年，標準檢驗局委託中文數位化技術推廣基金會再次擴編，於2004年推出新版的CNS11643，將編碼空間由原先規定的十六字面增加到八十字面，並使用至第十五字面。2014年，使用第十七、十九字面。2021年，使用第二十四字面^[2]^[3]。

「CNS11643中文交換碼全字庫」為1999年時，由主計處電資中心委託中文數位化技術推廣基金會建置，用以解決中文碼查詢、轉碼與缺字問題。為配合2012年的行政院組織改造，全字庫改由研考會辦理，自2014年又由繼承研考會業務的國家發展委員會管理。2022年8月27日數位發展部成立後，網站管理機構調整為數位部^[4]。全字庫目前已收納10萬8,800多個文字及符號。若扣除第八和第九字面中的非漢字字元以及第一字面中的符號、注音、部首、漢字構件等字元，以有倉頡碼屬性的字來計算，大約有9萬6,600多個漢字^[5]^[6]。

版本

年份	標準名稱	更改
1983	CNS11643-1983	通用漢字標準交換碼試用版推出，包括13,053字及441個符號，12月推出的大五碼，字集與字序與交換碼試用版完全相同，僅字碼定義不同。
1986	CNS11643-1986	通用漢字標準交換碼正式版發行，包括13,051個字（刪除2個重複字，調整20個字順序）與441個符號，其餘均與試用版相同。
1988	CNS11643-1986	增加第十四字面使用者加字區交換碼，共增加6,148字。
1989	CNS11643-1986	再增加第十四字面使用者加字區交換碼，共增加157字。
1992	CNS11643-1992	擴充第3至7字面，增加部首和數字符號，並更換名稱為中文標準交換碼，總共包括48,027個字與684個符號。
2002	CNS14649	國際標準ISO 10646／Unicode的中文版「CNS 14649廣用多八位元編碼字元集」推出，包括中、日、韓、越等20,902個漢字，及全球使用的字元。
2004	CNS11643-2004	編碼架構擴充至八十字面。
2008	CNS11643-2008	擴充版發行，增加了戶政用字與異體字等。

編碼格式

CNS 11643遵循ISO/IEC 2022所規定的七位元94個圖形字元（英语：Graphic character）多位元組延伸編碼格式^[3]，以2個位元組 (byte)為中文碼編碼單位，以十六進位制之文數字表示，並且避開控制碼所在的範圍。字面字集之排列，大抵以使用頻率為次序，第一字面以常用字為主，第二字面以次常用字為主，第三字面以部分罕用字及較常用異體字為主，其後的字面大多以罕用字、異體字、教育部閩客語用字及戶政、役政、地政等機關用字為主。在每一字面中，依先筆畫後部首排列順序來編訂字碼（每一字面均以文字筆畫總數為第一次序，筆劃數同則按照部首為次序，部首同再按照筆順為次序）^[7]。

CNS 11643採用多字面編碼結構，並藉助ISO/IEC 2022所規定的逸出順序（escape sequence）和調用控制符切換字面。因此，同樣的正規字元碼在CNS 11643的不同字面會代表不同的漢字（例如：第1字面字元碼454A為中文字「日」，而第2字面的454A是中文字「碇」）。CNS 11643在新版中規定了延伸字元碼，作為任一字元的唯一字元碼。CSIC延伸字元碼是在正規字元碼前，附加該字元所屬字面的字面指示碼^[3]。

終結字元

目前 CNS11643 的1~7 字面之終結字元（最後字元、最終位元組） [F] 已獲國際標準組織 ISO 正式登記為 47 至 4D ，亦可使用於字集之指定^[7]^[8]。依據ISO 237之規定，各國的國家標準若要成為國際間之中文資訊交換標準，必須向國際標準組織申請註冊，並由國際標準組織正式公佈，如此全球各國即可依國際標準公佈之終結字元進行資料交換。

CNS 11643-1992所包括的七個字面，每個字面均分別向ISO秘書處歐洲計算機製造商協會申請相對應之終結字元。經由資訊工業策進會之協助申請，1993年2月1日CNS 11643第一、第二字面正式獲得終結字元：47和48，1994年3月25日CNS 11643第三至第七字面也正式獲得終結字元：49 - 4D。

CNS字面	CNS暫用終結字元	ISO正式終結字元
第一字面	30	47
第二字面	31	48
第三字面	32	49
第四字面	33	4A
第五字面	34	4B
第六字面	35	4C
第七字面	36	4D

與BIG-5之關係

五大專案碼（BIG-5）為資訊工業策進會與臺灣十三家資訊業者簽約，共同為「五大軟體專案」所設計的中文內碼。該內碼於1983年12月推出，共收錄13,053個漢字（有兩字重複編碼，故實際上只有13,051個字）、408個符號、33個控制字元^[12]，其字元的範圍與順序都和1983年10月推出的「通用漢字標準交換碼」試用版相同，但碼位不同。「通用漢字標準交換碼」在1986年推出正式版，刪除試用版的2個重複編碼字，調整了20個字的順序。

大五碼後來成為繁體中文社群最常用的電腦漢字字集標準，然而所涵蓋的字數不敷實際需求，造成廠商各自增刪，衍生成多種不同版本。2003年中文數位化技術推廣基金會接受經濟部標準檢驗局委託，召集國內業者代表、專家和學者，就BIG-5字元表的原始版本和業界主要版本予以重整，稱為Big5-2003^[13]。重整後的版本，去除了重複編碼，並新增7個中文字，以及370個符號，包括30個數字符號、24個部首、14個罕用符號、268個日本假名，以及34個表格符號^[12]。其成果最後收錄至CNS 11643的附錄之中^[14]。

參看

資料來源

^ 余保倫. 與文字共舞－中文數位化發展簡介 (PDF). 中華民國統計資訊網. [2022-12-16]. （原始内容存档 (PDF)于2022-12-16）.
^ 存档副本. [2015-03-28]. （原始内容存档于2015-04-02）.
^ ^3.0 ^3.1 ^3.2 曾士熊. 認識中文字元碼：十、中文標準交換碼（CNS 11643）. [2022-12-16]. （原始内容存档于2022-05-28）.
^ 全字庫中文標準交換碼. 全字庫介紹. [2022-12-16]. （原始内容存档于2022-12-16）.
^ 全字庫現況. [2022-12-16]. （原始内容存档于2023-01-27）.
^ 全字庫中文標準交換碼 - 中文碼現況. [2022-12-17]. （原始内容存档于2022-12-17）. 現有字數：現行全字庫中，戶政與地政部分用字經檢查為認同字，因而刪除該碼位資料，但仍保留該碼位的位置，現有字數即去除這些被認同掉的字碼，所計算得到的總字數……全字庫第八字面和第九字面所儲存的是拼音文字，所以沒有注音、倉頡等屬性資料碼位個數
^ ^7.0 ^7.1 認識全字庫＞中文碼介紹. [2022-12-17]. （原始内容存档于2021-05-14）.
^ 附錄1﹕中文字碼處理說明 (PDF). [2022-12-17]. （原始内容存档 (PDF)于2022-12-17）.
^ 存档副本. [2021-12-12]. （原始内容存档于2022-07-14）.
^ 存档副本. [2021-12-12]. （原始内容存档于2022-07-14）.
^ 存档副本. [2021-12-12]. （原始内容存档于2022-07-10）.
^ ^12.0 ^12.1 曾士熊. 認識中文字元碼：九、Big5和Big5E. [2022-12-17]. （原始内容存档于2022-05-28）.
^ 認識全字庫＞中文碼介紹. [2022-12-17]. （原始内容存档于2021-05-14）.
^ 謝東翰. 預覽「Big5 2003」. [2022-12-17]. （原始内容存档于2022-12-17）.

外部連結

CNS11643中文標準交換碼全字庫（页面存档备份，存于互联网档案馆）
CNS11643中文標準交換碼全字庫資料集（页面存档备份，存于互联网档案馆）
CNS 11643與Unicode對照表（页面存档备份，存于互联网档案馆）
曾士熊：認識中文字元碼 - 中文標準交換碼（CNS 11643）（页面存档备份，存于互联网档案馆）
依据各平面显示所有字符的PDF（舊資料）

[余保倫-1] 余保倫. 與文字共舞－中文數位化發展簡介 (PDF). 中華民國統計資訊網. [2022-12-16]. （原始内容存档 (PDF)于2022-12-16）.

[2] 存档副本. [2015-03-28]. （原始内容存档于2015-04-02）.

[曾士熊-CNS-3] 3.0 ^3.1 ^3.2 曾士熊. 認識中文字元碼：十、中文標準交換碼（CNS 11643）. [2022-12-16]. （原始内容存档于2022-05-28）.

[4] 全字庫中文標準交換碼. 全字庫介紹. [2022-12-16]. （原始内容存档于2022-12-16）.

[全字庫現況-5] 全字庫現況. [2022-12-16]. （原始内容存档于2023-01-27）.

[6] 全字庫中文標準交換碼 - 中文碼現況. [2022-12-17]. （原始内容存档于2022-12-17）. 現有字數：現行全字庫中，戶政與地政部分用字經檢查為認同字，因而刪除該碼位資料，但仍保留該碼位的位置，現有字數即去除這些被認同掉的字碼，所計算得到的總字數……全字庫第八字面和第九字面所儲存的是拼音文字，所以沒有注音、倉頡等屬性資料碼位個數

[CNS11643-7] 7.0 ^7.1 認識全字庫＞中文碼介紹. [2022-12-17]. （原始内容存档于2021-05-14）.

[8] 附錄1﹕中文字碼處理說明 (PDF). [2022-12-17]. （原始内容存档 (PDF)于2022-12-17）.

[9] 存档副本. [2021-12-12]. （原始内容存档于2022-07-14）.

[10] 存档副本. [2021-12-12]. （原始内容存档于2022-07-14）.

[11] 存档副本. [2021-12-12]. （原始内容存档于2022-07-10）.

[Big5-12] 12.0 ^12.1 曾士熊. 認識中文字元碼：九、Big5和Big5E. [2022-12-17]. （原始内容存档于2022-05-28）.

[13] 認識全字庫＞中文碼介紹. [2022-12-17]. （原始内容存档于2021-05-14）.

[14] 謝東翰. 預覽「Big5 2003」. [2022-12-17]. （原始内容存档于2022-12-17）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

簡介

版本

編碼格式

終結字元

最新版本

與BIG-5之關係

參看

資料來源

外部連結