双层PDF的问题!

来源:百度知道 编辑:UC知道 时间:2024/05/21 13:12:33
能不能专业点介绍下什么是双层PDF?它有什么重要的技术指标(或技术参数),与其他的电子文本格式有那些区别?
请注意,我问的是【双层PDF】

所谓双层PDF就是上层是图像,下层是隐藏文字的PDF格式。利用这种文件格式,用户就可以对PDF文档进行正常的操作,同时安全共享网络文件。

=================

双层PDF是这样的PDF文件:PDF文件的每一页都包含两层,上层是从纸质文件扫描出来的原始图像,下层是用OCR软件对扫描图像进行识别后产生的文字结果。这样用户在阅读PDF文件时看到的是扫描图像,可以100%保留原始版面效果(包括公章、签名),在需要的时候,又可以通过下层的文字信息支持选择、复制、检索等功能。

与普通PDF文件相比,双层PDF能够同时兼顾视觉效果和使用方便性,因此在国内办公、档案领域正在引起重视,我个人相信会有美好的“钱途”。

显然,双层PDF的内容检索、内容复制与OCR识别结果有直接的关系。先不说目前国内OCR软件的识别率如何,最关键的一点是目前没有任何一个中文OCR引擎是免费、开源的(英文的则有gocr等一批),所以双层PDF生成工具也都不是免费的,而是“面向企业市场”,我相信穷困的个人用户在不违法的情况下很难消受得起。

PDF全称Portable Document Format,是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关,也就是说,PDF文件不管是在Windows,Unix还是在苹果公司的Mac OS操作系统中都是通用的。这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用PDF格式文件。PDF格式文件目前已成为数字化信息事实上的一个工业标准。
Adobe公司设计PDF文件格式的目的是为了支持跨平台上的,多媒体集成的信息出版和发布,尤其是提供对网络信息发布的支持。为了达到此目的, PDF具有许多其他电子文档格式无法相比的优点。PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高。
PDF文件使用了工业标准的压缩算法,通常比PostScript文件小,易于传输与储存。它还是页独立的,一个PDF文件