pdf - apache solr 索引上不支持/禁用的操作 EI

标签 pdf solr

嗨,我正在 Windows 服务器上使用 apache solr 3.1
在 cmd 中索引“不支持/禁用的操作 EI”时,我看到异常 PDFStreamEngine
我用 Google 搜索了一下,但找不到任何解决方案

Apr 4, 2012 3:33:21 AM org.apache.solr.common.SolrException log
SEVERE: Exception in entity : null:org.apache.solr.handler.dataimport.DataImport
HandlerException: Unable to read content Processing Document # 3029
        at org.apache.solr.handler.dataimport.DataImportHandlerException.wrapAnd
Throw(DataImportHandlerException.java:72)
        at org.apache.solr.handler.dataimport.TikaEntityProcessor.nextRow(TikaEn
tityProcessor.java:130)
        at org.apache.solr.handler.dataimport.EntityProcessorWrapper.nextRow(Ent
ityProcessorWrapper.java:238)
        at org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilde
r.java:591)
        at org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilde
r.java:617)
        at org.apache.solr.handler.dataimport.DocBuilder.doFullDump(DocBuilder.j
ava:267)
        at org.apache.solr.handler.dataimport.DocBuilder.execute(DocBuilder.java
:186)
        at org.apache.solr.handler.dataimport.DataImporter.doFullImport(DataImpo
rter.java:353)
        at org.apache.solr.handler.dataimport.DataImporter.runCmd(DataImporter.j
ava:411)
        at org.apache.solr.handler.dataimport.DataImporter$1.run(DataImporter.ja
va:392)
Caused by: org.apache.tika.exception.TikaException: Unexpected RuntimeException
from org.apache.tika.parser.ParserDecorator$1@1a8e75a
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:199
)
        at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:1
35)
        at org.apache.solr.handler.dataimport.TikaEntityProcessor.nextRow(TikaEn
tityProcessor.java:128)
        ... 8 more
Caused by: java.lang.NullPointerException
        at org.apache.pdfbox.pdmodel.PDPageNode.getCount(PDPageNode.java:109)
        at org.apache.pdfbox.pdmodel.PDDocument.getNumberOfPages(PDDocument.java
:943)
        at org.apache.tika.parser.pdf.PDFParser.extractMetadata(PDFParser.java:1
07)
        at org.apache.tika.parser.pdf.PDFParser.parse(PDFParser.java:88)
        at org.apache.tika.parser.ParserDecorator.parse(ParserDecorator.java:91)

        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197
)
        ... 10 more

Apr 4, 2012 3:33:22 AM org.apache.pdfbox.util.PDFStreamEngine processOperator
INFO: unsupported/disabled operation: EI  

请帮忙
谢谢

最佳答案

这实际上是来自 PDFBox 的消息。这意味着 PDF 包含 PDFBox 不支持的运算符。更多详细信息可以在这里找到:

http://mail-archives.apache.org/mod_mbox/pdfbox-users/201304.mbox/%3C128CBE37-40F7-4948-BAE2-67151D7527A7@fileaffairs.de%3E

关于pdf - apache solr 索引上不支持/禁用的操作 EI,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10006777/

相关文章:

pdf - Linux : Command Line Utility Convert RTF to PDF?

c# - 在 Web 服务中使用带有外部 CSS 的 HTML 页面中的 iTextSharp 创建 PDF

linux - 如何在 Windows 操作系统中为 Jetty 7 添加用户

solr - 对结果进行分组并保持分面计数一致

c# - 从 aspx 页面下载 PDF

javascript - 如何在 HTML/JavaScript 中制作水平滚动的 PDF 文档?

c# - 如何从 pdf 文件中提取附件?

java - Lucene/Solr - 索引出版物/文本

jakarta-ee - 超时后停止 solr 搜索

security - 使用 Solr 搜索安全/门控内容