.net - 以编程方式提取 PDF 表格

我有一堆包含表格数据的 PDF 文档，我需要将它们提取为更易读的格式以存储在电子表格、数据库或其他任何内容中。

世界上有没有什么东西(最好是免费的)能够将 PDF 中的表格数据转换为更易读的格式批量或者与本地集成应用程序或被动地通过命令行或在代码(.net)中循环进程？

实际上可以是任何格式(doc、html)，只要维护表格即可。

到目前为止，我发现的任何内容要么是一次性的(一次只处理一个文档，我有数百个文档，但这种情况没有发生)，要么不维护表结构。

有什么想法请留言。

最佳答案

这是一个巨大的麻烦。一般来说，提取 PDF 文件的文本内容与 PDF 希望您执行的操作背道而驰。

首先尝试将文本取出来。这可能或多或少成功，具体取决于 PDF 的构建方式。一个起点是 GhostScript 或 pstotext 。如果你失败了，这个人有一个 list of text extraction tools 。一旦获得文本流，您就可以尝试以编程方式重新组装表格结构。

最后，如果您的状况非常糟糕，并且 PDF 不配合，您可以进行 OCR 操作。正确的长期解决方案是从一开始就将数据转换为正确的格式，要么通过执行单个、大规模、痛苦且可能部分手动的过程；或者转到来源并建议以更有用的形式提供数据。

如果您可以提供更具体的 PDF 示例文件，可能会有更好或更准确的答案...对此没有通用的解决方案，如果可能的话，需要根据您的具体情况进行定制源数据。

请注意此rather pointed response to the general question ...对你面前的问题没有帮助，但也许在向你的老板解释为什么没有明显的答案时，它会提供有用的顶盖？ ;-)

弹出一个新的SO问题，并引用了这个库--iTextSharp ——这看起来可能相关。所以问题:Best way to extract...

关于.net - 以编程方式提取 PDF 表格，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3424588/