jjzjj

PDFBox-Tools

全部标签

java - 使用 PDFBox 读取文本和图像位置(x.y 坐标)

我正在编写一个java程序来读取加密的PDF文件并逐页提取文件内容,包括文本、图像及其在文件中的位置(x、y坐标)。现在我为此目的使用PDFBox,我正在获取文本和图像。但是我无法获取文本位置和图像位置。阅读一些加密的PDF文件也有一些问题。 最佳答案 看看org.apache.pdfbox.examples.util.PrintTextLocations。我已经用了很多,它对分析PDF文档中元素和边界框的布局非常有帮助。它还显示了用白色墨水打印的或可打印区域之外的项目(大概是文档水印,或被作者推到视线之外的“遗忘”项目)。使用示例

java - 如何为 com.sun.tools.javac.Main.compile() 函数设置类路径?

我正在使用com.sun.tools.javac.Main.compile()函数在运行时从我的struts项目编译java文件。但是对于某些文件,他们需要一些特定的jar,例如axis2。我有jar,但如何将它们设置为类路径以在运行时编译java文件?我尝试使用System.setProperty("java.class.path","jardir");但编译失败。 最佳答案 以下使用com.sun.tools.javac.Main的代码对我有用:苹果.java//ThisclassispackagedinajarnamedMyJ

java - PDFBox U+00A0 在此字体编码中不可用

我在调用PDField的setValue方法并尝试设置包含特殊字符的值时遇到问题。field.setValue("TEST-BY (TEST)")详细来说,如果我的值包含U+00A0字符,我会收到以下异常:Causedby:java.lang.IllegalArgumentException:U+00A0isnotavailableinthisfont'sencoding:WinAnsiEncoding完整的stracktrace可以在这里找到:Stacktrace我目前已将PDType1Font.TIMES_ROMAN设置为字体。为了解决这个问题,我也尝试了其他可用的字体。同样的问题

java - 使用 PDFBox 标记的 PDF

是否可以使用PDFBox创建带标签的PDF(PDF/UA)?PDFBox似乎有一个API(包org.apache.pdfbox.pdmodel.documentinterchange.taggedpdf),但我找不到任何教程或代码示例。使用下面的代码,我生成了一个包含图像的PDF文件,屏幕阅读器NVDA(在我的例子中)识别它并读取“...图形替代描述”。但是,可访问性检查器PAC2显示错误:“图像对象未标记”。PDDocumentdoc=newPDDocument();PDPagepage=newPDPage();doc.addPage(page);PDDocumentCatalogd

eclipse - JRE 系统库缺少 tools.jar

我使用的是Ubuntu12.04(LTS)。在我的Eclipse项目中,我需要使用com.sun.tools.attach包。但是,我的JRE系统库不包含包含该包的tools.jar文件。我尝试为Java6和7安装不同的JRE和JDK。我注意到其中一些在他们的libs文件夹中有提到的jar文件,但Eclipse仍然无法在选择JRE时将它包含在我的类路径中。引用tools.jar直接解决了问题,但由于这是一个共享项目,我不允许修改类路径,因此这对我来说不是一个可行的解决方案。我friend用的MAC是同版本的Eclipse和默认的JRE,没有出现这个问题。我们发现,对他而言,tools.

java - 通过 Apache PDFBox 将 MS Office 文档添加到 PDF

我正在使用ApachePDFBox(http://pdfbox.apache.org/)从任意数量的文件(包括图像和其他PDF)中创建PDF。现在我需要将MSOffice文档(Word、Excel和OutlookMSG)添加到PDF。文件可以有几乎所有的Office版本,所以不能认定文件是新的office文件(如docx)或旧文件(如doc)。有没有办法只使用免费工具来做到这一点?我的第一个想法是使用ApachePOI(http://poi.apache.org/)读取每个文件的内容并将文件重新创建为一个新的PDF页面,但这可能会变得非常昂贵,因为这个PDF创建在服务器上被超过五十人使

java - 如何使用 Java 从 pdf 中提取图像(不使用 pdfbox)

我一直在研究如何从一个大的(>300MB)PDF文件中提取图像。我正在使用pdfbox但由于某些我无法弄清楚的特殊原因,某些页面未正确提取。我使用pdfbox的PDFToImage类作为我的代码的基础。那么,你知道另一个可以帮助我做到这一点的图书馆吗?我知道可以使用iText,但我读到它不能用于商业产品。我已经安装了xpdf和xpdf-utils包,名为pdfimages的实用程序运行良好。但我需要从Java解决这个问题,它应该是可移植的。 最佳答案 我认为您在这里谈论的是两件不同的事情:从PDF中提取图像,以及将PDF页面转换为图

java跳过catch子句直接跳到finally in apache pdfbox

在这件事上,我双手插在头发上。我正在使用ApachePDFBox,因为我想在JAVA中逐行读取pdf文件,然后再处理内容。但是我有以下问题..我在一个单独的java程序中使用了下面的代码(在main方法中)并且它在那里工作正常。但是,当我在我的tomcat服务器小程序中将它与quartz调度程序结合使用时,出现了问题,我无法弄清楚原因。请记住,我将下面的行从工作的单独测试程序复制并粘贴到我自己的更大项目中,因此它们是完全相同的代码。然而,在我更大的项目中,程序一直运行到我放置断点的Stringx1=..行。当我尝试越过它时,它不会给出任何错误、控制台输出或任何东西,而是直接跳过catc

java - PDFbox加载大文件

我正在尝试使用PDFBox将pdf文件的第一页转换为图像。当我加载大型pdf文件时出现异常。代码:PDDocumentdoc;try{InputStreaminput=newURL("http://www.jewishfederations.org/local_includes/downloads/39497.pdf").openStream();doc=PDDocument.load(input);PDPagefirstPage=(PDPage)doc.getDocumentCatalog().getAllPages().get(0);BufferedImageimage=first

java - PDFBox:禁用字体缓存或更改其位置

当我调用PDField.setValue设置表单字段的值时,我得到以下堆栈跟踪:FileSystemFontProvider.saveDiskCache(349)|Couldnotwritetofontcachejava.io.FileNotFoundException:/.pdfbox.cache(Permissiondenied)atjava.io.FileOutputStream.open(NativeMethod)atjava.io.FileOutputStream.(FileOutputStream.java:194)atjava.io.FileOutputStream.(F