用java如何提取pdf中的标题和作者

来源:百度知道 编辑:UC知道 时间:2024/06/21 11:04:15
使用xpdf

PDDocument document=PDDocument.load(fis);
PDDocumentInformation info = document.getDocumentInformation();
System.out.println("页数:"+document.getNumberOfPages());

System.out.println( "标题:" + info.getTitle() );
System.out.println( "主题:" + info.getSubject() );
System.out.println( "作者:" + info.getAuthor() );
System.out.println( "关键字:" + info.getKeywords() );

System.out.println( "应用程序:" + info.getCreator() );
System.out.println( "pdf 制作程序:" + info.getProducer() );

System.out.println( "Trapped:" + info.getTrapped() );

System.out.println( "创建时间:" + dateFormat( info.getCreationDate() ));
System.out.println( "修改时间:" + dateFormat( info.getModificationDate()));

pdf不是文本文件,是不能提取的。除非你把它转换成文本。

使用xunjiePDF编辑器 这个软件,进行提取。
1 在 PDF工具中打开 PDF 并选择“文档”>“提取页面”。
2 请指定要提取的页面的范围。
3 请在“提取页面”对话框中,执行以下一个或多个操作