python pdfplumber : extract pdf with data split into 2 columns

标签 python python-3.x pdf

我收集了以下列格式存储信息的 pdf 文件:

Line no 1     Line no. 11    
Line no 2     Line no. 12
.             .
.             .
.             .
Line no 10    Line no N

我正在使用 pdfplumber库来提取 PDF 的文本内容,但是 pdfplumber 不是首先从第 1 行读取到第 10 行,然后向第 11 行前进(依此类推),而是将第 1 行和第 11 行作为一行一起读取。考虑以下输出:

Line no 1 Line no. 11    
Line no 2 Line no. 12
.             
.             
.             

我的期望:

Line no. 1
Line no. 2
.
.
.
Line no. 11
.
.
.

这是 link到我正在尝试阅读的 pdf。

PDF 概览: Sample pdf

我尝试了 pdfplumber 库中带有表设置的 extract_table() 实用程序,但它没有用(引用答案 https://stackoverflow.com/a/63133876/10011503 )

我是否需要将一些特定的表设置作为参数传递给 pdfplumber.open('path_to_pdf').pages[0].extract_table() 或者是否有任何其他实用程序和/或解决方法?

最佳答案

我在上面的 PDF 部分没有看到表格。我建议你使用

Page.extract_text(...)

改为调用。

readme主文档中有一个在 https://github.com/jsvine/pdfplumber/blob/stable/examples/notebooks/san-jose-pd-firearm-report.ipynb 处提取固定宽度文本的示例这与您的药物 PDF 更相似。

关于 python pdfplumber : extract pdf with data split into 2 columns,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63577396/

相关文章:

python - cublas cublasZgemm() 比预期慢

python - Discord.py 重写如何DM命令?

python - 命令提示符不能一个字母一个字母地写?

Python:使用多处理模块作为可能的解决方案来提高我的功能的速度

python - 获取函数的用户输入

python - 如何为绝对初学者制作适用于 Windows 的 Python 扩展

python-3.x - pandas如何检查列中的值是否连续

xml - 从 XML 生成高质量 PDF 的最佳方法是什么?

perl - 以编程方式更改 PDF 中所有线条的宽度

c# - 防止用户在 C# 中打印/保存 PDF 文件