python - 解析 PDF 时忽略表格

标签 python pdf xml-parsing pypdf pdfminer

我想解析pdf并删除所有表格,图像。我使用 PyPDF2 和 pdfminer 来解析 pdf,但它也解析表格的内容以及其他内容。我尝试将 pdf 转换为 xml(使用 pdfminer)以获得一些结构,以便我可以忽略 table 。但我没有得到有用的结构。我得到了具有不同 id 的元素,如下所示

 <textbox id="1" bbox="56.760,740.908,82.824,751.816">

我知道,我可以使用这些 id 属性来忽略该表,但我有大量文档,使用这种方法我必须手动检查哪个 id 属于表,以便我可以忽略它。我还有其他方法可以自动执行此任务吗?

Here is示例 pdf 和 xml 文件。

最佳答案

我也遇到过类似的问题。我想忽略表格和图表。由于我的表格和图表主要包含数字数据,因此我选择了以下方法。 1.使用tika提取文本。 2. 将文本分成句子。 3. 以停用词为引用,过滤掉那些至少不包含一个停用词的句子。(一个句子不可能没有任何一个介词)

这很大程度上解决了问题。另外,我们可以使用这种方法在一定程度上去除页脚、段落标题

关于python - 解析 PDF 时忽略表格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59347873/

相关文章:

xml-parsing - publicId 和 systemId 之间需要空格,但 XML 看起来没问题

python - 使用 Azure Batch 中的托管标识在批处理池中使用 Python 通过 Key Vault 进行身份验证

C# SVG(使用 device-cmyk() 或 icc-color())到 PDF 转换

android - Google 文档 PDF 查看器

java - 线程 "main"java.lang.Error : Unresolved compilation 中出现异常

javascript - 如何在 jquery 中使用 Find 表达式来查找确切的 xml 节点?

python - __init__ 和 self 在 Python 中做了什么?

Python subprocess.Popen 作为 Windows 上的不同用户

Python将数据集反规范化为类似 View 的矩阵

Java PDF 操作,基于模式匹配替换文本,带有超链接