python - 将 PDF 数据抓取到 Excel *绝对初学者*

标签 python pdf pdfminer pypdf pdfrw

对我来说,这实际上是 Python 的第一天。我过去曾使用 VBA、Java 和 Swift 进行编码,但我在遵循在线指南来编码 pdf scraper 时遇到了特别困难。由于我不知道自己在做什么,所以每次我想测试我在网上找到的一些代码时,我都会遇到困难。

基本信息

  • Windows 7 64 位
  • python 3.6.0
  • Spyder3
  • 我有很多pdf相关的代码包(PyPDF2、pdfminer、pdfquery、pdfwrw等)

目标

在 python 中创建一些东西,允许我将 PDF 从文件夹转换为 excel 文件(ideallY)或文本文件(我将使用 VBA 进行转换)。

问题

每次我尝试网上找到的指南中的一些示例代码时,我总是会在调用要测试代码的 pdf 的行上遇到语法错误。下面是一些指南链接和错误示例。我应该将 test.pdf 放入与 .py 文件相同的文件中吗?

runfile('C:/Users/U587208/Desktop/pdffolder/pdfminer.py', wdir='C:/Users/U587208/Desktop/pdffolder')
  File "C:/Users/U587208/Desktop/pdffolder/pdfminer.py", line 79
    print pdf_to_csv('test.pdf', separator, threshold)
                   ^
SyntaxError: invalid syntax

最佳答案

看来您所遵循的教程使用的是 python 2。通常没有什么明显的差异,最大的是在 python 3 中, print 成为了一个函数

print()

我建议您更改 python 版本或查找 python 3 的教程。希望这会有所帮助

关于python - 将 PDF 数据抓取到 Excel *绝对初学者*,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44503913/

相关文章:

python - multiprocessing.Queue 不能作为类中的实例变量工作?

java - 线程 "main"java.lang.Error : Unresolved compilation problem: LocalConverter cannot be resolved 中出现异常

ios - 如何使用 QuartzPDF 在 PDF 中搜索非 ASCII 字符(西里尔字符)?

ios - 将 pdfminer bbox 坐标转换为 iOS 屏幕

Python Post 形成防刮保护

python - 尝试将特定列乘以 Pandas DataFrame (Python) 中多行的一部分

Python - 如果有 "exact"匹配则返回值?

ios - Swift - 导入后图像质量下降

python - 如何在 python 中抑制 PDFMiner 的布局分析

python - 导入错误 : cannot import name 'open_filename' from 'pdfminer.utils'