我正在尝试将 pdf 文件中的文本转换为文本或 HTML 格式,但此错误经常发生 '无法从'pdfminer.pdfinterp'导入名称'process_pdf'' 我怎样才能删除这个?
我已经在 Visual Basic Studio 中尝试过这段代码,但它仍然无法正常工作,但在这种情况下,由于空格而出现缩进错误,所以我在 Jupyter Notebook 中尝试了此代码并收到了此错误。
from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager , process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layput import LAParams
def to_txt(pdf_path):
input_ = file(pdf_path , 'rb')
output = StringIO()
manager = PDFResourceManager()
converter = TextConverter(manager, output, laparams = LAParams())
process_pdf(manager, converter, input_)
return output.getvalue()
b = to_txt(rb"C:\Users\Jasvinder Singh\Desktop\HACK-IN REPORT.docx")
ImportError: cannot import name 'process_pdf' from 'pdfminer.pdfinterp' (C:\Users\Jasvinder Singh\Anaconda3\lib\site-packages\pdfminer\pdfinterp.py)
最佳答案
请参阅documentation和 this comment on a bug .
process_pdf
方法已替换为 PDFPage.get_pages()
。
关于python - 如何修复 'cannot import name ' ' 错误中的 'pdfminer.pdfinterp' process_pdf',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57079815/