我有数千个 pdf 文件需要从中提取数据。这是一个示例 pdf .我想从示例 pdf 中提取此信息。
我对 nodejs、python 或任何其他有效方法持开放态度。我对python和nodejs知之甚少。
我尝试在此代码中使用 python
import PyPDF2
try:
pdfFileObj = open('test.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageNumber = pdfReader.numPages
page = pdfReader.getPage(0)
print(pageNumber)
pagecontent = page.extractText()
print(pagecontent)
except Exception as e:
print(e)
但我被困在如何找到采购历史上。从pdf中提取采购历史的最佳方法是什么?
最佳答案
pdfplumber是最好的选择。 [ Reference ]
安装
pip install pdfplumber
提取所有文本 import pdfplumber
path = 'path_to_pdf.pdf'
with pdfplumber.open(path) as pdf:
for page in pdf.pages:
print(page.extract_text())
关于python - 从pdf中提取数据的最佳方法是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57939472/