python - 将 PDF 数据抓取到 Excel 绝对初学者

标签 python pdf pdfminer pypdf pdfrw

对我来说，这实际上是 Python 的第一天。我过去曾使用 VBA、Java 和 Swift 进行编码，但我在遵循在线指南来编码 pdf scraper 时遇到了特别困难。由于我不知道自己在做什么，所以每次我想测试我在网上找到的一些代码时，我都会遇到困难。

基本信息

Windows 7 64 位
python 3.6.0
Spyder3
我有很多pdf相关的代码包(PyPDF2、pdfminer、pdfquery、pdfwrw等)

目标

在 python 中创建一些东西，允许我将 PDF 从文件夹转换为 excel 文件(ideallY)或文本文件(我将使用 VBA 进行转换)。

问题

每次我尝试网上找到的指南中的一些示例代码时，我总是会在调用要测试代码的 pdf 的行上遇到语法错误。下面是一些指南链接和错误示例。我应该将 test.pdf 放入与 .py 文件相同的文件中吗？

How to scrape tables in thousands of PDF files?
- 由于最后一行的“for”，我遇到了无效语法错误
PDFMiner 指南 ( Link )

runfile('C:/Users/U587208/Desktop/pdffolder/pdfminer.py', wdir='C:/Users/U587208/Desktop/pdffolder')
  File "C:/Users/U587208/Desktop/pdffolder/pdfminer.py", line 79
    print pdf_to_csv('test.pdf', separator, threshold)
                   ^
SyntaxError: invalid syntax

最佳答案

看来您所遵循的教程使用的是 python 2。通常没有什么明显的差异，最大的是在 python 3 中， print 成为了一个函数

print()

我建议您更改 python 版本或查找 python 3 的教程。希望这会有所帮助

关于python - 将 PDF 数据抓取到 Excel *绝对初学者*，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44503913/

上一篇：python - 适用于多个操作系统的 Matplotlib 后端？

下一篇：python - Json 和非英语语言

java - 线程 "main"java.lang.Error : Unresolved compilation problem: LocalConverter cannot be resolved 中出现异常

ios - 如何使用 QuartzPDF 在 PDF 中搜索非 ASCII 字符(西里尔字符)？

ios - 将 pdfminer bbox 坐标转换为 iOS 屏幕

Python Post 形成防刮保护

python - 尝试将特定列乘以 Pandas DataFrame (Python) 中多行的一部分

Python - 如果有 "exact"匹配则返回值？

ios - Swift - 导入后图像质量下降

python - 如何在 python 中抑制 PDFMiner 的布局分析

python - 导入错误 : cannot import name 'open_filename' from 'pdfminer.utils'