gb2312与utf8编码的判断

来源:百度知道 编辑:UC知道 时间:2024/05/22 05:20:40
例如:http://www.google.cn/search?complete=1&hl=zh-CN&q=%E7%94%B5%E8%84%91%E7%BB%B4%E4%BF%AE&meta=&aq=null
这段字符串,提取其中的%E7%94%B5%E8%84%91%E7%BB%B4%E4%BF%AE这段对其编码格式判断,应该怎么写呢?
首先 上面的只是个例子
其次 请看
http://www.google.cn/search?complete=1&hl=zh-CN&ie=GB2312&q=%B5%E7%C4%D4%CE%AC%D0%DE&meta=&aq=null
这段google地址就是gb2312的

感谢gzlu提供的正则式 可我要实现的不是转码 而是一个对代码的格式的判断

对于汉字来讲:

%E.%[^01234567CDEF].%[^01234567CDEF].($|[^%].*|%(E.%[^01234567CDEF].%[^01234567CDEF].+|[0-7].+))

能匹配的就是UTF-8,否则就是GB2312. 不过提醒楼主这不能保证完全准确,只能是绝大多数情况准确。你试试看能否满足你的需要吧。

google一定是UTF8编码的,这个不需要判断吧