python - 从pdf文档中提取文本时是否可以获取行号？

有没有办法从 pdf 文档中逐行获取文本或使用任何库和语言获取行。我可以使用java中的这3个lib pdfbox、itext、aspose-pdf从pdf文档中逐页获取文本。

最佳答案

使用 PyMuPDF，这是最简单的方法:

import fitz  # PyMuPDF
doc = fitz.open("input.pdf")

for page in doc:
    i = 0
    blocks = page.get_text("blocks", sort=True)  # text organized in paragraphs
    for block in blocks:
        for line in block[4].splitlines():
            print(f"Page {page.number}, line {i}: '{line}'")
            i += 1

Every block is a tuple of 4 boundary box coordinates, followed by the string comprising the text of the paragraph.

关于python - 从pdf文档中提取文本时是否可以获取行号？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/76437736/

上一篇：c# - 我们如何使用具有不同属性名称的 JsonSerializer.DeserializeAsyncEnumerable 从巨大的 json 反序列化为 ProtoBuf

下一篇：python - 将数组数据与子数组数据匹配

相关文章：

python - 如何使用 pyPDF2 反转多个 PDF 文件的顺序？

python - 如何用空格填充Python numpy chararray？

java - 从完整路径获取不带扩展名的文件名

python - 无需 OAuth 且只需 API key 即可获取 Youtube Analytics

python - 如何使用 python 在 google colab 中保存 json 转储？

java - 有什么好的方法可以将多维数组转换为 List<List<T>>？

Linux 上的 JAVA 堆大小监控

java - iText 图像调整大小

java - java中的pdf文件无法添加页眉或边距？

pdf - "Not LTV-enabled"是什么意思？