adobe - 带有加密 PDF 的 Apache Tika

标签 adobe apache-tika

我想使用 Apache Tika Library 提取 PDF 内容。一切都很好,直到我遇到带有加密用户名和密码的 PDF。 它会遇到如下错误:

INFO Document is encrypted org.apache.tika.exception.EncryptedDocumentException: Unable to process: document is encrypted at org.apache.tika.parser.pdf.PDFParser.parse(PDFParser.java:153)

Caused by: org.apache.pdfbox.exceptions.CryptographyException: Cannot find an appropriate security handler for Adobe.APS at org.apache.pdfbox.pdmodel.PDDocument.decrypt(PDDocument.java:952) at org.apache.tika.parser.pdf.PDFParser.parse(PDFParser.java:139) ... 4 more

有谁知道 Apache Tika 是否支持使用这种安全功能提取 PDF?

最佳答案

您可以在下面尝试。它对我有用

PasswordProvider pp = (元数据) -> "密码";

    // Create a context parser for the pdf document
    ParseContext context = new ParseContext();
    context.set(PasswordProvider.class, pp);

关于adobe - 带有加密 PDF 的 Apache Tika,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57667227/

相关文章:

javascript - Adobe Illustrator JavaScript - 循环将数据集应用于每个打开的文档

android - Flex Hero Mobile,弹出 View 时共享数据

python - 使用机器学习的段落分割

java - Apache 蒂卡 1.7 : Parse files in a zip archive

java - 在 pig 中创建 udf 以进行图像处理

java - 我必须依靠哪一 jar 提卡?

apache-flex - 以编程方式确定 AIR 应用程序是否是从命令行启动的?

adobe - cq :emptyText is not working in Adobe CQ5. 5

ios - Adobe Air iOS 无效 bundle 不支持 info.plist 中指定的最低版本操作系统

java - 带有 java Applet 的嵌套 Jar