python - 从pdf中提取数据的最佳方法是什么

标签 python node.js pdf pdf-scraping

我有数千个 pdf 文件需要从中提取数据。这是一个示例 pdf .我想从示例 pdf 中提取此信息。

enter image description here

我对 nodejs、python 或任何其他有效方法持开放态度。我对python和nodejs知之甚少。
我尝试在此代码中使用 python

import PyPDF2

try:
   pdfFileObj = open('test.pdf', 'rb')
   pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
   pageNumber = pdfReader.numPages
   page = pdfReader.getPage(0)
   print(pageNumber)

   pagecontent = page.extractText()
   print(pagecontent)
except Exception as e:
   print(e)


但我被困在如何找到采购历史上。从pdf中提取采购历史的最佳方法是什么?

最佳答案

pdfplumber是最好的选择。 [ Reference ]
安装

pip install pdfplumber
提取所有文本
import pdfplumber
path = 'path_to_pdf.pdf'
with pdfplumber.open(path) as pdf:
    for  page  in pdf.pages:
        print(page.extract_text())

关于python - 从pdf中提取数据的最佳方法是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57939472/

相关文章:

python - 将 conda 包安装到 google colab

python - 全局名称 'json' 未定义

Python Paramiko,权限错误: [Errno 13] Permission denied when get files from remote server

pdf - 获取并设置itext pdf文档的元数据

ruby-on-rails - Rails wicked_pdf (wkhtmltopdf) 生产环境中的小图和bug

python - pytorch 上的“没有名为 cv2 的模块”导入错误

Javascript 内部 - clearTimeout 就在它触发之前

javascript - 使用 axios 对拦截器进行单元测试会抛出错误

javascript - 如何在 Node js 中生成网络推送 vapid key ?

iOS Swift 使用 Alamofire 上传 PDF 文件(多部分)