计算机到底能识别多少汉字?

来源:百度知道 编辑:UC知道 时间:2024/05/27 12:47:00
很多冷僻字都打不出来
请问,计算机到底能识别多少汉字?

80年代开始,个人计算机大量在中国使用,国家规定了G

B2312的标准,在CCDOS上开始使用.GB2312在字形上是采用的中国国家颁布的汉字字形,全部

是有拼音的,但是在编码上,为了保证计算机上的使用,采用的是ISO2022的编码法则.对于当

时,不同的国家,只有标准字符集和标准符号集在ISO2022中,不同国家的编码区域是完全一

样的,但是在各自的文字区域是复用的,即,如果安装了GB2312就无法兼容安装日本的标准编

码.在80年代末期和90年代初期,海峡两岸的交流越来越多,却出现了在计算机上文字互补兼

容的问题,在90年代初期,制定了一个GBK的规范,就是在大陆的6763字后面,增加BIG5里面的

15000汉字的部分.这个部分是字型与台湾的字型是一样的,但是编码仍然是ISO2022.同时8

0年代末期,国际上已经开始重视文化在计算机上的交流,提出了国际统一码的概念,就是在

一个编码体系里面容下全世界的文字.针对这个倡议,世界各国组织了 Unicode委员会,同时

也制定了一个新的编码标准,就是ISO10646编码.由于90年代初期,认识的局限性,中国没有

积极的参与这个活动,日本, 韩国在第一个标准里面占据了大量的码位,后来成立了Super

C.J.K小组进行协调,在这个标准里面,把大陆,台湾的字型都放在里面的话由中国人占据的

码位是20902个,含了所有的GB2312,GBK, BIG5的字型字.90年代末期,中国政府在此基础上

,对于部分字型进行了处理和规范,形成了GB13000.1的标准文件,字型略有不同,但是编码是

采用ISO10646的编码体系.目前在大陆的微软系统用字是ISO10646的20902个汉.Unicode

和ISO10646在初期的理论基础是不同的,Unicode认为字符编码应该是变长的,而ISO10646

认为字符编码是定长的,并且用2字节码就可以把世界上所有