python - 如何调整 'word_margin' 以便在 python 中使用 pdfminer 读取 PDF?

标签 python pdfminer

我尝试使用以下代码使用 python 操作“word_margin”,但它抛出错误 TypeError: get_pages() got an unexpected keyword argument 'word_margin'。如果我从参数中删除 word_margin=word_margin,PDFminer 可以很好地读取文档。

代码:

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    word_margin = 1

    for page in PDFPage.get_pages(fp, pagenos, word_margin=word_margin,maxpages=maxpages,password=password,caching=caching, check_extractable=True):

        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

最佳答案

word_marginLAParams 类的一个参数。如果我理解正确的话,代码应该是这样的:

from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import TextConverter

from StringIO import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'

    word_margin = 1
    laparams = LAParams(word_margin=word_margin)

    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')


    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,password=password,caching=caching, check_extractable=True):

        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

关于python - 如何调整 'word_margin' 以便在 python 中使用 pdfminer 读取 PDF?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30223595/

相关文章:

python - 在 linux 中安装 matplotlib 的问题

python - 按第一个目录级别批量拆分 PDF?

python - 将边界框中的pdf文本直接提取到python中

python - 遍历 .PDF 并使用 PDFMiner 将它们转换为 .txt

python - 绘制具有独特事件的时间序列

python - 复制由 pandas.DataFrame 组成的复合对象时出错

python - 这个递归函数能否变成具有类似性能的迭代函数?

python - Python 中的 Barabási-Albert 模型

python - 如何使用 PDFMiner 获取 PDF 中文本的位置?

python - 如何修复 'cannot import name ' ' 错误中的 'pdfminer.pdfinterp' process_pdf'