我有一些从 word 或 excel 文件创建的 pdf 文件。
我需要获取表格中的信息。
文档中的文本不是图像,因此我可以使用 pdfbox 等工具提取文本。
当我有文本时,我无法知道它属于表格中的哪些单元格,因为我不知道表格边框在哪里。
我尝试了一些桌面工具,例如 abby 或 solid pdf 转换器,它们能够将文件转换为漂亮的 word 文档,但这不符合我的需求,因为我希望能够做到这一点在 C# 中编程。
一些表格有嵌套表格,我认为这让这有点困难。
感谢你的帮助
最佳答案
这里的困难是因为 PDF 中的文本不包含在任何表格中。它可能看起来像,但在表面之下,它不是。
所以我可以想到几个选项。但它们都不会像您希望的那样令人满意。
- 有些公司提供用于 PDF 到 Excel/Word 转换的 SDK。 Investintech 和 Iceni 就是两个例子。但这些解决方案不是免费的。
- 如果您知道需要从中提取表格数据的 PDF 文件的确切布局,那么您可以使用任何可让您从 PDF 中提取文本并告诉您所提取文本的确切坐标的 SDK .使用这种方法,您需要提前知道文本的位置,以便您可以从页面上的特定区域提取文本。如果您需要处理任何随机文档,它显然不会工作。
这是一项艰巨的任务,但希望这能为您提供一个起点。
关于c# - 从 PDF 中的嵌套表格中提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3528492/