我想使用 Apache Tika Library 提取 PDF 内容。一切都很好,直到我遇到带有加密用户名和密码的 PDF。 它会遇到如下错误:
INFO Document is encrypted org.apache.tika.exception.EncryptedDocumentException: Unable to process: document is encrypted at org.apache.tika.parser.pdf.PDFParser.parse(PDFParser.java:153)
Caused by: org.apache.pdfbox.exceptions.CryptographyException: Cannot find an appropriate security handler for Adobe.APS at org.apache.pdfbox.pdmodel.PDDocument.decrypt(PDDocument.java:952) at org.apache.tika.parser.pdf.PDFParser.parse(PDFParser.java:139) ... 4 more
有谁知道 Apache Tika 是否支持使用这种安全功能提取 PDF?
最佳答案
您可以在下面尝试。它对我有用
PasswordProvider pp = (元数据) -> "密码";
// Create a context parser for the pdf document
ParseContext context = new ParseContext();
context.set(PasswordProvider.class, pp);
关于adobe - 带有加密 PDF 的 Apache Tika,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57667227/