通俗的讲,什么是unicode?

来源:百度知道 编辑:UC知道 时间:2024/05/06 10:40:37

通俗、简单地说,Unicode是一种计算机的字符编码,通过它统一、唯一的编码规则,可以在计算机上表示出不同国家的文字和字符,它所涵盖的字符集,称为Unicode字符集。

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。最新版本的 Unicode 是 2006年7月14日推出的Unicode 5.0.0。

Unicode 的编码方式与 ISO 10646 的通用字符集对应,使用16位的编码空间,每个字符占用2个字节。理论上最多可以表示65536 个字符。基本满足各种语言的使用。实际上目前版本的 Unicode 尚未填充满这16位编码,保留了大量空间作为特殊使用或将来扩展。

上述16位 Unicode 字符构成基本多文种平面(Basic Multilingual Plane, 简称 BMP)。最新(但未实际广泛使用)的 Unicode 版本定义了16个辅助平面,两者合起来至少需要占据21位的编码空间,比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间,与 UCS-4 保持一致。未来版本会扩充到 ISO 10646-1 实现级别3,即涵盖 UCS-4 的所有字符。UCS-4 是一个更大的尚未填充完全的31位字符集,加上恒为0的首位,共需占据32位,即4字节。理论上可以涵盖一切语言所用的符号。

BMP 字符的 Unicode 编码表示为 U+hhhh,其中每个 h 代表一个十六进制数位。与 UCS-2 编码完全相同。对应的4字节 UCS-4 编码后两个字节一致,前两个字节的所有位均为0。

Unicode 的传输常用Unicode转换格式(Unicode Translation Format,简称为 UTF)。例如UTF-8。它是在Unicode基础上为提高传输效率的一种变长编码。