GBK与UTF-8转换时乱码

来源:百度知道 编辑:UC知道 时间:2024/06/04 01:37:29
下面一段代码,将字符串在GBK与UTF-8之间进行两次转换,第一次生成乱码(UTF-8的字节码用GBK解析),第二次反推这个过程,应该会生成正确的字符串.
但是有些中文字却变成了'???'一类的乱码.只是其中的一些...

public class UTF8SimpleTry {
public static void main(String[] args) throws UnsupportedEncodingException {
String str = new String("可怜");
System.out.println(">>>>>"+str);
String str1 = new String(str.getBytes("UTF-8"),"GBK");
String str2 = new String(str1.getBytes("GBK"),"UTF-8");
System.out.println("====="+str2);

}
}

上面的代码会打印出:
>>>>>可怜
=====可???

但是如果str为"我我我我我"就不会有乱码...

我的问题是:这个乱码是如何产生的?
(请认真看完上面的描述再给答案,最好是能针对此问题,也不拒绝有意义的转贴...谢谢....)
本机语言环境:GBK
JAVA文件保存方式:GBK

3: fish0715008 - 秀才 三级
是的,用8859_1怎么都不会有乱码..
5: qingdaowpj - 助理 二级
我明白了,问题出在str1,str.getBytes("UTF-8")是没有问题的,得到了正确的字节码,但是把这些字节码以GBK的方式解析时

应该编码转换的时候丢失了字节,你没有发现你输入的是偶数个字的时候正常,奇数个的时候乱码,具体的字码长度我也不是很了解
String str1 = new String(str.getBytes("UTF-8"),"GBK");
System.out.println(str1.length());
String str2 = new String(str1.getBytes("GBK"),"UTF-8");
System.out.println(str2.length());); 打印出来的字符串长度就不一样的
UTF8每个汉字占用3个字节,这样在某些地方文字个数的计算就和GBK编码的不一样,UTF-8使用可变长度字节来储存 Unicode字符,例如ASCII字母继续使用1字节储存,重音文字、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。辅助平面字符则使用4字节。 GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分使用0×00至0×7F码(对应于ASCII码的相应码)。双字节部分,首字节码从0×81至0×FE,尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二、四个字节编码码位均为0×30至0×39。
按照程序员的称呼,GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。

支持国际化并不是你这样用的。
java本身是utf-16的。
如果不想出现各种编码切换下的乱码,就需要用utf-16的编码。
不知道你做项目或者学习中,有没有用过所谓的 资源文件。
MessageResources.properties 这种。
其中的字符是这种形式的\u9879\u76ee\u7ba1\u7406
这样就能保证在任何编码中,都能正确的显示出来