java - pdfbox 标题版本信息错误

标签 java parsing pdf pdfbox

我使用 PDFbox 来解析那个 pdf 文档。它抛出异常,说它找不到标题版本信息。有什么想法吗?

我认为版本是 1.3 我在将每个字节都转换为 char 时看到了它。 链接是http://www.selab.isti.cnr.it/ws-mate/example.pdf

这里是方法代码和输出:

 public String PDFtest(String textLink) throws IOException{
        PDFParser parser;
        String parsedText = null;
        PDFTextStripper pdfStripper;
        PDDocument pdDoc;
        COSDocument cosDoc;
        PDDocumentInformation pdDocInfo;


    StringBuilder sd=new StringBuilder();
    URL link;
    try {
        link = new URL(textLink);
        URLConnection urlConn = link.openConnection();
        BufferedInputStream in = null;
        in = new BufferedInputStream(urlConn.getInputStream());
        byte data[] = new byte[1024];
        in.read(data, 0, 1024);

    parser = new PDFParser(in);
    parser.parse();
    cosDoc = parser.getDocument();
    pdfStripper = new PDFTextStripper();
    pdDoc = new PDDocument(cosDoc);
    parsedText = pdfStripper.getText(pdDoc);
    } catch (MalformedURLException ex) {
        Logger.getLogger(HTMLhelper.class.getName()).log(Level.SEVERE, null, ex);
    }
    catch (NumberFormatException e){
        System.out.println("hata");
    }

    return parsedText;



}

异常(exception):

Exception in thread "main" java.io.IOException: Error: Header doesn't contain versioninfo
    at org.apache.pdfbox.pdfparser.PDFParser.parseHeader(PDFParser.java:317)
    at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:173)
    at ParsingMachine.HTMLhelper.PDFtest(HTMLhelper.java:99)
    at ParsingMachine.tester.main(tester.java:18)
Java Result: 1

最佳答案

您必须合并一个非 pdf 格式的文件。请仔细检查列表中是否有除 pdf 之外的任何文件。

关于java - pdfbox 标题版本信息错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19013936/

相关文章:

java - StringIndexOutOfBoundsException 错误

c# - 在 C# 中呈现 MediaWiki 的最佳方法?

android - Xml 解析错误

string - Dart double toStringAsFixed 对数字进行四舍五入,但它不应该

javascript - 制作一个 anchor 标记,点击时触发打印操作

java - 通过 iText 提取 PDF 文本返回奇怪的字符

iphone - 将 pdf 文件请求从文档目录发送到 iPhone 中的(POST 方法)Web 服务?

java - Android 上带有 JMRTD 的外部 RFID 阅读器

Java Web 应用程序多用户 session 处理

java - 如何从返回的 XML-RPC 对象中获取 String 数组?