我想解析pdf并删除所有表格,图像。我使用 PyPDF2 和 pdfminer 来解析 pdf,但它也解析表格的内容以及其他内容。我尝试将 pdf 转换为 xml(使用 pdfminer)以获得一些结构,以便我可以忽略 table 。但我没有得到有用的结构。我得到了具有不同 id 的元素,如下所示
<textbox id="1" bbox="56.760,740.908,82.824,751.816">
我知道,我可以使用这些 id 属性来忽略该表,但我有大量文档,使用这种方法我必须手动检查哪个 id 属于表,以便我可以忽略它。我还有其他方法可以自动执行此任务吗?
Here is示例 pdf 和 xml 文件。
最佳答案
我也遇到过类似的问题。我想忽略表格和图表。由于我的表格和图表主要包含数字数据,因此我选择了以下方法。 1.使用tika提取文本。 2. 将文本分成句子。 3. 以停用词为引用,过滤掉那些至少不包含一个停用词的句子。(一个句子不可能没有任何一个介词)
这很大程度上解决了问题。另外,我们可以使用这种方法在一定程度上去除页脚、段落标题
关于python - 解析 PDF 时忽略表格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59347873/