急:怎样将htm格式转换为PD格式?

来源:百度知道 编辑:UC知道 时间:2024/05/12 18:33:12
请教各位高手了,怎样将htm格式转换为PDF,,,谢谢,,,,,,

虚拟打印机可以实现,
认识虚拟打印机
安装完Office 2003之后,你会发现“打印对话框”中多了一个打印机列表,这就是一台虚拟打印机。如果没有安装,请运行Office 2003的安装程序,利用其“添加或删除功能”中的“高级自定义”将组件Microsoft Office Document Imaging Writer安装到系统中即可。
如果选中此项来打印,就会得到一个扩展名为MDI的文件。它有以下的应用。
1. 通过Microsoft Office Document Image Writer将Word、Excel、PowerPoint、Internet Explorer等浏览器中的各种可以打印输出文件,打印输出为MDI格式,用于存档。
2. Office 2003中除了提供虚拟打印功能,还提供了编程接口。可以很方便地从MDI文件中提取其中包含的文本,图片等内容,通过相应的索引模块,可以方便地为不同格式文档建立索引。
3. Office 2003还提供了可以查看MDI文件内容的ActiveX控件,我们可以把该控件放置到Windows Forms中,用于查看MDI文件的内容。这样,一个通用性很高的文档管理系统就创建出来了。

利用虚拟打印机提取加密pdf文档中的文字
运行Acrobat Reader,打开要提取文字的pdf文档,单击菜单“文件→打印”,在出现的“打印”窗口中,打印机名称一定要选择“Microsoft Office Document Imaging Writer”,单击后面的“属性”按钮,可以设置页面大小、输出文件格式(包括mdi和tiff两种格式,默认为msi)及默认保存位置。设置好“打印”窗口中的其他相关参数后,单击“确定”按钮,出现“另存为”窗口,在此即可把页面“打印”成一个mdi文件,同时系统会自动启动“Microsoft Office Document Imaging”并显示出刚刚保存的mdi文件。
在Microsoft Office Document Imaging的窗口中,单击菜单“工具→将文本发送到Word”,在弹出的窗口中单击“确定”,系统会自动对整个页面进行OCR识别,识别完毕之后,会自动启动Word,并把识别出