很难的问题(关于PDF)

来源:百度知道 编辑:UC知道 时间:2024/05/29 07:40:09
现在有很多书籍是PDF形式的。就是用扫描仪扫描的。阅读时要用阅读器(比如Adobe Reader等)。有没有一种方法可以把其中的字单独提取出来复制到WORD里?
呵呵,很白痴的问题。不过说不定有高手呢~

这个不需要高手就能告诉你...
PDF文件有3种来源
1.Office软件转换格式而来
2. 扫描或图片转换格式而来
3. 通过软件虚拟打印而来

其中,Office软件例如word ppt excel等文档转换格式时,Acrobat保留了文字信息,可以直接转换回Word。但如果开始制作PDF时设置了禁止提取文字信息,则不能转回word

扫描或图片转化为PDF,因为本身就不带有文字信息,无法转成文本文档,但是可以通过OCR文字识别软件来识别和转换文字,ABBYY FineReader 是我用过最完美的OCR软件,可惜对中文不支持。

通过虚拟打印得到的PDF,可能包含文字信息,也可能保留的只是图片信息,需要自己分析。Adobe Reader7.0以上都带有文字识别功能,能识别的基本都能倒回成文本。

还有问题可发消息问我

有 PDF 格式转换为 DOC 的软件。

扫描的PDF一般不能单独提取文字。
如果想扫描文字并且编辑的话,需要OCR软件,就是汉字识别,目前比较好找、有破解、功能强大且简单的是“尚书六号”(好像有七号了?不确定),用这个软件可以将书籍扫成TXT,个别地方要改改,识别精度还是很高的。