python - 如何访问特定 pdf 页面而不是整个文档的文本

我正在尝试从一些 pdf 文档中提取一些内容。尽管我在 pdfminer 和 pymupdf 上投入最多，但我一直在尝试各种工具。我从 pdfminer 开始，但在无法解决一个特定问题后开始测试 pymupdf - 也就是说，当我的 pdf 文档有很多页时，我想选择是否处理每个特定页面。但是，我在使用这两个库时遇到的问题是，当我尝试从一个特定页面(或另一个页面)检索文本时，返回的文本是文档中的所有文本。

这里是 document 的链接有 57 页。

这里我将重点介绍使用 pymupdf 的情况

这是一些代码

import fitz
doc = fitz.open('local_path_to_file_from_link_above')
for page in doc:
    text = page.getText().encode("utf8")
    break

我在此中断是为了确认我仅从一页中提取了文本 - 但当我检查文本时，我发现它几乎包含整个文档(所有 57 页)中的所有文本

所以我很好奇，尽管 pdf 文件中出现了页面边界 - 也许它们不存在，所以我使用 pageCount 属性/属性/方法来确定页面是否存在 - 它们似乎是

>>> doc.pageCount
57

当我循环遍历所有页面时，描述输出有点困难，每个页面并不完全具有所有页面的所有内容，但它具有几乎所有内容。我通过使用以下代码确定了这一点

mydict = dict()
for n, page in doc:
    print n, len(p.getText())
    mydict[n] = p.getText()

这是输出 - 为了完整性

因此，第 29 页的内容存在偏差，从页面检索到的文本长度也存在差异，但仔细观察，似乎存在明显的重叠

>>> mydict[0][0:5000] == mydict[1][0:5000]
True

但是

>>> mydict[0][-5000:] == mydict[1][-5000:]
False

总而言之 - 库似乎理解现有的页面边界，但为单个页面检索的文本几乎是文档中的所有文本。由于生成了一个很好的目录 - 我想使用它以及该目录提供的页码来识别我想要进一步解析和提取数据的特定页面。

我发现我在尝试使用 pdfminer 时遇到了类似的问题。我可以检索所有文本，而不仅仅是特定指定页面中的文本。

最佳答案

尝试以下操作从该 pdf 的任何特定页面获取文本。

import fitz

path = r''

doc = fitz.open(path)
page = doc.loadPage(1) #put here the page number
page_to_text = page.getText("text")
print(page_to_text)

关于python - 如何访问特定 pdf 页面而不是整个文档的文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56676815/

python - 如何访问特定 pdf 页面而不是整个文档的文本

上一篇：PHP imagick COMPOSITE_DSTIN 结果有黑色背景

下一篇：c - Vanilla C 下降替代英特尔内在函数？