什么是字符集、编码、代码页(code page)

来源:百度知道 编辑:UC知道 时间:2024/05/17 04:50:02
还有什么计算机内码

unicode 和utf-8这些。。

我在Uedit32里面查看的utf-8的16进制,怎么显示的是Unicode编码啊,而不是3字节的Utf-8数据啊

1.字符集:字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。

2.编码:编码是信息从一种形式或格式转换为另一种形式的过程。用预先规定的方法将文字、数字或其它对象编成数码,或将信息、数据转换成规定的电脉冲信号。编码在电子计算机、电视、遥控和通讯等方面广泛使用。编码是信息从一种形式或格式转换为另一种形式的过程。

3.代码页是字符集编码的别名,也有人称"内码表"。

字符集就是一组规定了的字和符号。
例如,GB2312-1980,它含ASCII字符,日文假名(字母),俄文字母,7千左右的中文字。

编码,就是给字符集中每一字符各有一个独一无二的数字号码,相当于定义一组向量,一列是字和符号形状,另一列是它的码。

代码页 code page 是IBM 的传统术语,就是“一张字符编码表”,当然这个“张”可以很大也 可以很小。例如 IBM PC (OEM) code page,中文GBK code page 。

Code page is the traditional IBM term used for a specific character encoding table: a mapping in which a sequence of bits, usually a single octet representing integer values 0 through 255, is associated with a specific character. IBM and Microsoft often allocate a code page number to a character set even if that charset is better known by another name.

GB2312 code page 是双bytes 码,两字节大于 0xA0A0 的表. 也就是说code page 里可能含有部分空白