c# - 从 PDF 中的嵌套表格中提取数据

标签 c# pdf ms-word text-extraction

  1. 我有一些从 word 或 excel 文件创建的 pdf 文件。

  2. 我需要获取表格中的信息。

  3. 文档中的文本不是图像,因此我可以使用 pdfbox 等工具提取文本。

  4. 当我有文本时,我无法知道它属于表格中的哪些单元格,因为我不知道表格边框在哪里。

  5. 我尝试了一些桌面工具,例如 abby 或 solid pdf 转换器,它们能够将文件转换为漂亮的 word 文档,但这不符合我的需求,因为我希望能够做到这一点在 C# 中编程。

  6. 一些表格有嵌套表格,我认为这让这有点困难。

感谢你的帮助

最佳答案

这里的困难是因为 PDF 中的文本不包含在任何表格中。它可能看起来像,但在表面之下,它不是。

所以我可以想到几个选项。但它们都不会像您希望的那样令人满意。

  1. 有些公司提供用于 PDF 到 Excel/Word 转换的 SDK。 Investintech 和 Iceni 就是两个例子。但这些解决方案不是免费的。
  2. 如果您知道需要从中提取表格数据的 PDF 文件的确切布局,那么您可以使用任何可让您从 PDF 中提取文本并告诉您所提取文本的确切坐标的 SDK .使用这种方法,您需要提前知道文本的位置,以便您可以从页面上的特定区域提取文本。如果您需要处理任何随机文档,它显然不会工作。

这是一项艰巨的任务,但希望这能为您提供一个起点。

关于c# - 从 PDF 中的嵌套表格中提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3528492/

相关文章:

vba - 构建 Word 字段

c# - 无法找到 ASP.NET 5 类库项目并将其添加到解决方案中

pdf - 后记 : Reading a file, 写入 pdf

java - 使用itext在pdf页脚中创建包含2行的表格

java - 如何使用 Word Ole Automation 列出集合中的项目

vba - 加速多次更换

c# - Nuget 包不在构建时复制 native DLL

c# - 指定了无效的 DN 语法 - Visual Studio 错误

c# - 单击 Blazor 中的顶部导航链接时滚动到页面的指定部分

python - 如何使用 Python 从 PDF 中提取表格作为文本?