python - 使用 pdfminer 从 pdf 中提取文本会提供多个副本

我正在尝试使用 PDFMiner(代码位于 Extracting text from a PDF file using PDFMiner in python?)从 PDF 文件中提取文本。除了 path/to/pdf 之外，我没有更改代码。令人惊讶的是，该代码返回同一文档的多个副本。我用其他 pdf 文件得到了相同的结果。我是否需要传递其他参数或者我遗漏了什么？非常感谢任何帮助。为了以防万一，我提供了代码:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    fstr = ''
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,    password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

        str = retstr.getvalue()
        fstr += str

    fp.close()
    device.close()
    retstr.close()
    return fstr

print convert_pdf_to_txt("test.pdf")

最佳答案

我在您引用的主题中的回答有点不正确。我发现了错误并忘记更新我的答案。

因为 pdfminer 的文档非常少，我无法完全解释为什么它会这样工作。希望更了解 pdfminer 库的人可以给我们一些见解。

我所知道的是，您必须在 for 循环之外执行 text = retstr.getvalue()。我只能假设 retstr 正在更新，就像我们在 for 循环中执行 final_text += text 一样，所以一旦完成，我们只需要执行 text = retstr.getvalue() 从所有页面中获取文本。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,password=password,caching=caching, check_extractable=True):

        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

print convert_pdf_to_txt("test.pdf")

希望这对您有所帮助!

关于python - 使用 pdfminer 从 pdf 中提取文本会提供多个副本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26748788/

python - 使用 pdfminer 从 pdf 中提取文本会提供多个副本

上一篇：python - 每小时、每天计算记录并创建多索引 DataFrame 作为输出

下一篇：python - 向 Tkinter OptionMenu 添加命令？