python - 解析 PDF 时忽略表格

我想解析pdf并删除所有表格，图像。我使用 PyPDF2 和 pdfminer 来解析 pdf，但它也解析表格的内容以及其他内容。我尝试将 pdf 转换为 xml(使用 pdfminer)以获得一些结构，以便我可以忽略 table 。但我没有得到有用的结构。我得到了具有不同 id 的元素，如下所示

 <textbox id="1" bbox="56.760,740.908,82.824,751.816">

我知道，我可以使用这些 id 属性来忽略该表，但我有大量文档，使用这种方法我必须手动检查哪个 id 属于表，以便我可以忽略它。我还有其他方法可以自动执行此任务吗？

Here is示例 pdf 和 xml 文件。

最佳答案

我也遇到过类似的问题。我想忽略表格和图表。由于我的表格和图表主要包含数字数据，因此我选择了以下方法。 1.使用tika提取文本。 2. 将文本分成句子。 3. 以停用词为引用，过滤掉那些至少不包含一个停用词的句子。(一个句子不可能没有任何一个介词)

这很大程度上解决了问题。另外，我们可以使用这种方法在一定程度上去除页脚、段落标题

关于python - 解析 PDF 时忽略表格，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59347873/