我正在尝试将存储在一个文件中的所有 pdf(例如 60 个 pdf)转换为文本文档并将它们存储在不同的文件夹中。该文件夹应该有唯一的名称。 我尝试了这段代码。创建的文件夹,但 pdftotext 转换命令在循环中不起作用:
import os
def listfiles(path):
for root, dirs, files in os.walk(path):
for f in files:
print(f)
newpath = r'/home/user/files/'
p=f.replace("pdf","")
newpath=newpath+p
if not os.path.exists(newpath): os.makedirs(newpath)
os.system("pdftotext f f.txt")
f=listfiles("/home/user/reports")
最佳答案
这里的一个问题是 os.system("pdftotext f f.txt")
调用。我假设您希望将此处的 f 替换为循环中的当前文件。如果是这种情况,您需要将其更改为 os.system("pdftotext {0} {0}.txt".format(f))
另一个问题可能是工作目录未设置,因此对系统的调用在错误的位置查找文件。尝试使用os.chdir
每次更改文件夹时。
要将文本文件放在不同的文件夹中,请尝试:
os.system("pdftotext {0} {1}/{0}.txt".format(f, newpath))
关于python - 使用python将文件夹中的所有pdf转换为文本文件并将它们存储在不同的文件夹中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29236538/