java - 使用 itext 读取 PDF 时获取字符串和 int 值的正确方法是什么？

我正在尝试使用 Itext 在 Java 中读取 PDF 文件。在我的 PDF 文件中，我有一些计算结果。一行中有一个元素及其两个计算结果，但它们不在表格中。我的 PDF 文件如下所示:

  I. Result X                          12.551.734,75       9.284.925,26
    . A. Result Y                      8.583.482,18        416.187,03
       . 1. result z                   83.708,72           91.220,23
       . 3. result a                   8.499.773,46        324.966,80
     . B. Result B                     0,00                199.942,00
        . 4. result c                  0,00                199.942,00
      . C. Result D                    780.316,81          5.376.366,65
        . 1. result e                  66.041,73           3.962.399,52
        . 2. result f                  685.579,00          1.367.086,66

我想做的是解析字符串及其值。我找不到合适的方法，我尝试了下面的代码。但是这个逻辑的问题是:

. 1. result z 8.583.482,18 416.187,03

它只打印字符串的“.”，然后是1和第一个数字。我无法获得整个 "。1. 结果 z" 部分作为字符串，然后是它的值，因为它在看到 int 值后直接打印并跳过其余部分。

int page = 1;
PdfReader reader = new PdfReader(pdf);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
strategy = parser.processContent(page, new LocationTextExtractionStrategy());
Scanner scanner = new Scanner(strategy.getResultantText());

...

for (int j = page; j <= reader.getNumberOfPages(); j++) {

            while (scanner.hasNextLine()) {
                String nextToken = scanner.nextLine();

                String rName = "";
                StringTokenizer tok = new StringTokenizer(nextToken);
                while (tok.hasMoreTokens()) {
                    String nToken = tok.nextToken();
                    try {
                        number = fmt.parse(nToken);
                        System.out.println(rName);
                        System.out.println(number);
                        while (tok.hasMoreTokens()) {
                            try {
                                nToken = tok.nextToken();
                                number = fmt.parse(nToken);
                                System.out.println(number);
                            } catch (ParseException e) {
                                if(rName.isEmpty()){
                                    rName = nToken;
                                }else{
                                    rName = rName + " " + nToken;
                                }
                            }
                        }
                        break;
                    } catch (ParseException e) {
                        if(rName.isEmpty()){
                            rName = nToken;
                        }else{
                            rName = rName + " " + nToken;
                        }
                    }                   
                }       
            }
            strategy = parser.processContent(++page, new LocationTextExtractionStrategy());
            scanner = new Scanner(strategy.getResultantText());
        }

如何正确获取这些字符串及其值，您能帮我吗？我认为这个解决方案不够好，还有其他有用的方法吗？

最佳答案

感谢您提供的所有详细信息。通常，您会使用正则表达式来解析复杂的行。尽管有时编程解析更容易遵循。与其使用 StringTokenizer 来分割行，不如尝试:

String line = scanner.nextLine();

String[] tokens = line.split("\\s+");
String value1 = tokens[tokens.length-2];
String value2 = tokens[tokens.length-1];

String rowTitle = line.substring(0, line.indexOf(value1)).trim();

System.out.print(rowTitle + "\t");
System.out.print(value1 + "\t");
System.out.println(value2);

关于java - 使用 itext 读取 PDF 时获取字符串和 int 值的正确方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34450050/

java - 使用 itext 读取 PDF 时获取字符串和 int 值的正确方法是什么？

上一篇：java - 如何使用 Monadic Bind 简化此 Apache Tomcat 代码？

下一篇：java - 如何从 Java 中的 InputStream 打开 MS Access 文件？