PDF转换成WOED格式后出现乱码,怎么解决?

来源:百度知道 编辑:UC知道 时间:2024/06/23 07:41:52

Adobe Acrobat可以直降将文件另存为为多种格式,并支持Word格式。
是Adobe Acrobat Professinal版本,而不是Adobe Acrobat Reader
前者是收费的,后者是免费的,只提供PDF文件的阅读功能。

但是这样另存为word格式得到的结果文件可能并不是你想象的那么好。
特别是对一些格式复杂,例如有背景,而且字体很怪异,并有表格和图像的这样的PDF

因为转换过程中PDF文件不支持复杂格式转换,如果页面太复杂转换过程的很多页面会变成图像,一样不能得到文字。
如果仅仅想得到这个PDF文件里面的文字,直接另存为为txt。

PDF文件格式也有很多种,如果想直接另存为成txt,前提是你的PDF文件必须是纯文本PDF,而不能是图像PDF。

对于图像PDF的文字提起,那就只能用OCR识别软件了。
它支出PDF文件的导入,然后进行识别,识别完后可以导出成word格式。

例如北京文通公司开发的“TH-OCR 2007文通数据录入工厂”
不过这样的软件一般很贵。
你要是能找到盗版也可以的哦。

用CAJViewer打开PDF文件,用里面的“文字识别”功能复制文本。
或者使用microsoft Office Document Imaging打印此PDF文件为XXX.mdi文件,在“工具”选项里选择“将文本发送到Word”即可。