关于unicode的编码问题

来源:百度知道 编辑:UC知道 时间:2024/05/06 13:08:25
Unicode
UTF-8

0000 - 007F
0xxxxxxx

0080 - 07FF
110xxxxx 10xxxxxx

0800 - FFFF
1110xxxx 10xxxxxx 10xxxxxx
不是说用两个字节吗,怎么还有一个,三个的情况,崩溃....上面的数字和下面的数字分别代表什么

一般的,可以用2个字节编码

但是字太多了,码位不够用,就有了3个4个的情况

上面都是说 unicode编码

如果转为 utf-8,一个2个字节编码的字符,也可能转为3个字符,以第三行为例,就是说unicode编码在0800到ffff之间的字,转为 utf后,除了写1和0的位置保持不变,其他写x的位置用这个字符的unicode码顺序填上。

如汉字 可 的unicode码是53EF 二进制0101 0011 1110 1111

转为utf8 E58FAF
(1110)0101 (10)001111 (10)101111