python - 如何修复 'cannot import name ' ' 错误中的 'pdfminer.pdfinterp' process_pdf'

标签 python python-3.x jupyter-notebook pdfminer pdf-to-html

我正在尝试将 pdf 文件中的文本转换为文本或 HTML 格式，但此错误经常发生 '无法从'pdfminer.pdfinterp'导入名称'process_pdf'' 我怎样才能删除这个？

我已经在 Visual Basic Studio 中尝试过这段代码，但它仍然无法正常工作，但在这种情况下，由于空格而出现缩进错误，所以我在 Jupyter Notebook 中尝试了此代码并收到了此错误。

from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager , process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layput import LAParams



def to_txt(pdf_path):
    input_ = file(pdf_path , 'rb')
    output = StringIO()

    manager = PDFResourceManager()
    converter = TextConverter(manager, output, laparams = LAParams())
    process_pdf(manager, converter, input_)

    return output.getvalue()

b = to_txt(rb"C:\Users\Jasvinder Singh\Desktop\HACK-IN REPORT.docx")

ImportError: cannot import name 'process_pdf' from 'pdfminer.pdfinterp' (C:\Users\Jasvinder Singh\Anaconda3\lib\site-packages\pdfminer\pdfinterp.py)

最佳答案

请参阅documentation和 this comment on a bug .

process_pdf 方法已替换为 PDFPage.get_pages()。

关于python - 如何修复 'cannot import name ' ' 错误中的 'pdfminer.pdfinterp' process_pdf'，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57079815/

上一篇：python - 快速检查 Markdown 中单词的方法？

下一篇：python - 如何设置绘制文本的背景颜色？

python - 该文件被另一个进程错误使用，随后出现意外行为

python - 使用 itertools.product 在范围内重复

python - 当我运行代码时，jupyter笔记本的内核不断死亡

jupyter-notebook - nbconvert 突然生成 .txt 而不是 .py

python - 如何在IPython笔记本中连续显示表格后跟数字而不在末尾出现重复的数字？

python - 我可以将 Cython 模块静态链接到嵌入 python 的可执行文件中吗？

当没有参数给出错误时，Python类自变量作为默认值

python - HTTP Post 是否被 Cloud9 阻止？

python - Discord.py 如何让机器人不响应 PM