关于unicode的编码问题
来源:百度知道 编辑:UC知道 时间:2024/05/06 13:08:25
Unicode
UTF-8
0000 - 007F
0xxxxxxx
0080 - 07FF
110xxxxx 10xxxxxx
0800 - FFFF
1110xxxx 10xxxxxx 10xxxxxx
不是说用两个字节吗,怎么还有一个,三个的情况,崩溃....上面的数字和下面的数字分别代表什么
UTF-8
0000 - 007F
0xxxxxxx
0080 - 07FF
110xxxxx 10xxxxxx
0800 - FFFF
1110xxxx 10xxxxxx 10xxxxxx
不是说用两个字节吗,怎么还有一个,三个的情况,崩溃....上面的数字和下面的数字分别代表什么
一般的,可以用2个字节编码
但是字太多了,码位不够用,就有了3个4个的情况
上面都是说 unicode编码
如果转为 utf-8,一个2个字节编码的字符,也可能转为3个字符,以第三行为例,就是说unicode编码在0800到ffff之间的字,转为 utf后,除了写1和0的位置保持不变,其他写x的位置用这个字符的unicode码顺序填上。
如汉字 可 的unicode码是53EF 二进制0101 0011 1110 1111
转为utf8 E58FAF
(1110)0101 (10)001111 (10)101111