python - 使用python将文件夹中的所有pdf转换为文本文件并将它们存储在不同的文件夹中

标签 python

我正在尝试将存储在一个文件中的所有 pdf(例如 60 个 pdf)转换为文本文档并将它们存储在不同的文件夹中。该文件夹应该有唯一的名称。 我尝试了这段代码。创建的文件夹,但 pdftotext 转换命令在循环中不起作用:

import os
def listfiles(path):
    for root, dirs, files in os.walk(path):
        for f in files:
                print(f)
        newpath = r'/home/user/files/'
        p=f.replace("pdf","")
        newpath=newpath+p 
        if not os.path.exists(newpath): os.makedirs(newpath)
        os.system("pdftotext f f.txt")

f=listfiles("/home/user/reports")

最佳答案

这里的一个问题是 os.system("pdftotext f f.txt") 调用。我假设您希望将此处的 f 替换为循环中的当前文件。如果是这种情况,您需要将其更改为 os.system("pdftotext {0} {0}.txt".format(f))

另一个问题可能是工作目录未设置,因此对系统的调用在错误的位置查找文件。尝试使用os.chdir每次更改文件夹时。

要将文本文件放在不同的文件夹中,请尝试:

os.system("pdftotext {0} {1}/{0}.txt".format(f, newpath))

关于python - 使用python将文件夹中的所有pdf转换为文本文件并将它们存储在不同的文件夹中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29236538/

相关文章:

Python xlsxwriter 不会在退出代码 -1 上创建工作簿

python - Django 。产品的几张图片

python - list(dict.items()) 是线程安全的吗?

python - 是否可以在 matplotlib hexbin 图中命名 x 轴和 y 轴?

请求之间的 Python Flask 持久对象

python - TensorFlow 服务 : Pass image to classifier

python - PEP 的地位和结构意味着什么?

python - 在 Python 中使用 EyeD3 设置 ID3 注释

python - 添加到 dict 这是一个类的属性

Python:方程图平滑但给出 'jagged' 输出?