如何编程实现汉字和中文标点的分开统计?

来源:百度知道 编辑:UC知道 时间:2024/05/20 06:28:56
1、统计一个文本文件中汉字数目,如何进行?如果仅仅通过ASCII码值的话,中文标点(全角字符)也被统计在内了,那如何区分开来呢?
2、任何语言皆可,关键能给俺一个思路,当然用程序实现最好,C为优。
兄弟们的解答太好了,再行添加一些,甚望达人们解答:
1、如何做到对全角字符(中文标点符号)与英文符号(半角字符)的转换?
2、能否针对doc、rtf等其它类型文档呢?

汉字的内码范围为 B0A0~F7A0,中文标点符号内码分布在
A1??的范围内,只要区分高字节的不同,就可以区分开汉字和标点了。
只给你一个思路,不给程序了。读文件,如果一个字节大于B0,则意味着有可能是中文汉字,如果下一字节仍然大于A0,那么这必然是一个汉字,字数加一,否则不予处理。直到文件读取结束。
回答补充:英文标点符号都有固定的小于128的ASCII码,而且只是单字节的。如果你想知道全角和半角标点的区别,就使用utral edit之类的工具察看,然后总结一下就可以了。要想针对某类固定格式的文档,必须知道他的文档格式,包括位置和压缩方法。然后才能解释清楚。