c# - 从 PDF 中的嵌套表格中提取数据

标签 c# pdf ms-word text-extraction

我有一些从 word 或 excel 文件创建的 pdf 文件。
我需要获取表格中的信息。
文档中的文本不是图像，因此我可以使用 pdfbox 等工具提取文本。
当我有文本时，我无法知道它属于表格中的哪些单元格，因为我不知道表格边框在哪里。
我尝试了一些桌面工具，例如 abby 或 solid pdf 转换器，它们能够将文件转换为漂亮的 word 文档，但这不符合我的需求，因为我希望能够做到这一点在 C# 中编程。
一些表格有嵌套表格，我认为这让这有点困难。

感谢你的帮助

最佳答案

这里的困难是因为 PDF 中的文本不包含在任何表格中。它可能看起来像，但在表面之下，它不是。

所以我可以想到几个选项。但它们都不会像您希望的那样令人满意。

有些公司提供用于 PDF 到 Excel/Word 转换的 SDK。 Investintech 和 Iceni 就是两个例子。但这些解决方案不是免费的。
如果您知道需要从中提取表格数据的 PDF 文件的确切布局，那么您可以使用任何可让您从 PDF 中提取文本并告诉您所提取文本的确切坐标的 SDK .使用这种方法，您需要提前知道文本的位置，以便您可以从页面上的特定区域提取文本。如果您需要处理任何随机文档，它显然不会工作。

这是一项艰巨的任务，但希望这能为您提供一个起点。

关于c# - 从 PDF 中的嵌套表格中提取数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3528492/

上一篇：c# - 在 web.config 的 mailSettings 部分处理多个邮件服务器的最佳方式是什么？

下一篇：c# - WebReference 和源代码控制

相关文章：

vba - 构建 Word 字段

c# - 无法找到 ASP.NET 5 类库项目并将其添加到解决方案中

pdf - 后记 : Reading a file, 写入 pdf

java - 使用itext在pdf页脚中创建包含2行的表格

java - 如何使用 Word Ole Automation 列出集合中的项目

vba - 加速多次更换

c# - Nuget 包不在构建时复制 native DLL

c# - 指定了无效的 DN 语法 - Visual Studio 错误

c# - 单击 Blazor 中的顶部导航链接时滚动到页面的指定部分

python - 如何使用 Python 从 PDF 中提取表格作为文本？

©2024 IT工具网联系我们