字符 (计算机科学)
此条目翻译品质不佳。 |
文字 |
---|
文字史 |
字位 |
文字列表 |
拼音文字相关 |
字母 |
字母的历史 |
文字系统类型 |
表音文字 |
全音素文字 |
辅音音素文字 |
元音附标文字 |
半音节文字 |
特征文字 |
音节文字 |
语素文字 |
辅助使用 |
速记 |
音标 |
特殊使用 |
数字 |
盲文 |
相关条目 |
象形文字 |
形意文字 |
搭配使用的符 号 |
附加符号 |
标点符号 |
可转换为文字 的其他使用 |
电报编码 |
字符 |
在电脑和电信领域中,字符(character)是一个信息单位。对使用字母系统或音节文字等自然语言,它大约对应为一个音位、类音位的单位或符号。简单来讲就是一个汉字、假名、韩文字……,或是一个英文、其他西方语言的字母。
字符的例子有:字母、数字系统或标点符号。另外有所谓控制字符的概念,它是指:并不对应到自然语言中的某个特定符号,而是对应到语言中一些用来处理文句的概念(类似排版)。例子为打印机或其它显示设备的命令,如Enter或Tab。
字符编码缘
电脑和通信设备会在表示字符时,会使用字符编码。是指将一个字符对应为某个东西。传统上,是代表整数的比特序列,如此,则可透过网络来传输,同时亦便于存储。两个常用的例子是ASCII和用于Unicode编码的UTF-8。根据谷歌的统计,UTF-8是目前最常用于网页的编码方式。(页面存档备份,存于互联网档案馆)相较于大部分的字符编码把字符对应到数字或位串,摩斯密码则是使用不定长度的电子脉冲的序列来表现字符。
术语
从历史来说,“字符”这个辞汇在工业专业中被广泛用来指一个编码过的字符(通常用于程序设计语言的API)。同样地,字符集则被广泛指为那些对应到特定比特序列的抽象字符的集合。随着Unicode编码等未指定比特形式的字符编码的到来。更精确的术语获得愈来愈多的认同。
对某些文件而言,区分一个字符是信息单位而非任何特定的视觉显示是很重要的。如aleph(א)这个希伯来字母常用于数学中,表示某种无穷,但它同时又用于原本的希伯来文件中。在统一码中,尽管这两种用法有一样外形,但它们是不同的字符,而且由不同的码位来区分。相对地,如“水”这个中文表意文字,在日文文件会和中文文件中有些微不一样的外观,这会反映在不同地区的字体。但它们仍代表相同的信息,即视为一样的字符,并且在统一码中使用一样的码位。
字形(glyph)这个辞汇用于描述一个特定字符实质的外观。很多电脑字体包含许多字形,且由一个字符的统一码码位来对其字形做索引。
Unicode标准(Unicode standard)和通用字符集彼此定义“字符”和“抽象字符”为“用来组织、控制或表达资料的成分所组集合的成员之一”。统一码的定义则补充了一些解释用的注释,鼓励读者去区分字符、字位和字形。这个准则也区分抽象字符和“编码过的字符”,后者是指和数字编码成对,以利于电脑中的表示。
另见
外部链接
- Characters: A Brief Introduction (页面存档备份,存于互联网档案馆) by The Linux Information Project (LINFO)
- ISO/IEC TR 15285:1998 summarizes the ISO/IEC's character model, focusing on terminology definitions and differentiating between characters and glyphs
- 字符与编码 (页面存档备份,存于互联网档案馆) 字符,字节和编码