在PDF文件中搜索

来源:百度知道 编辑:UC知道 时间:2024/05/21 15:50:18
有一个PDF文件,不能在里面搜索文字,应该是由图片组成的,复制出来的都是乱码,用网上能找到的PDF转WORD、TXT文件的工具都试过,转成的都是乱码,也试过解密,但是提示说不是加密文件。请问有没有高手知道应该怎么处理,先谢谢了!
还是想问一下有没有其他的转换软件,我试过的有solidconverterpdf,AdultPDFPasswordRecovery,PDF2WORD

下个CAJViewer 6.0,用他直接打开,一般可以用CAJ里面所有的有关文字识别和格式转换功能。
就算看不见字也不要气馁啊,文件--另存为--txt格式,之后你想怎么整就怎么整吧。
目前我尝试的最方便的一种方式了。

看看那文字工具能否复制文字,如复制不了,那么这个pdf文档多半是由图片组成的,那么就无法搜索。但可以OCR(文字识别),比如cajviewer6.0(要三十多兆的那个)可以识别,但这个不能批量识别;office自带有一个工具,就是Microsoft Office Document Imaging,可以把PDF文档打印成mdi格式(选择相应的Microsoft Office Document Imaging writer打印机就可以打印成这个格式了),然后在这里面进行文字识别,可以识别整个文档。当然还有其他OCR工具,不过提前说一句,批量OCR的效果一般都不佳。没有办法,因为是图片格式的,所以的确没有办法得到更好的效果,除非作者在制做PDF的时候加上了索引,但一般也不会有这么勤快的人……

pdf一般是不可复制的,但是可以转成word,先不说这个问题,但是pdf有查找的功能