在字母、汉字混排的txt文本中如何把文本分割为若干部分,且不产生乱码?

来源:百度知道 编辑:UC知道 时间:2024/06/07 20:59:08
字母占一个字符而汉字占两个字符,如何取出完整的字(包括字母和汉字)如:ac山东省.取三、五、七个字符则出现乱码。现有一大段txt文本,若要把它分为几个差不多相等的txt文件应如何分才不产生乱码。

汉字是由两个字符组成,并且每个字符的高位为1
字母是由一个字符组成,字符的高位为0
你可以通过这个进行判断是字母还是汉字,然后在进行处理
假设你读取的最一个字符高位是0,就可以拆分。
如果最后的字符高位是1,那么就继续向前读取,知道读到字符的高位是0,然后再往回读取,这时要两个两个的读取,以保证汉字的完整。