python - 从pdf文档中提取文本时是否可以获取行号?

标签 python java itext pdfbox

有没有办法从 pdf 文档中逐行获取文本或使用任何库和语言获取行。 我可以使用java中的这3个lib pdfbox、itext、aspose-pdf从pdf文档中逐页获取文本。

最佳答案

使用 PyMuPDF,这是最简单的方法:

import fitz  # PyMuPDF
doc = fitz.open("input.pdf")

for page in doc:
    i = 0
    blocks = page.get_text("blocks", sort=True)  # text organized in paragraphs
    for block in blocks:
        for line in block[4].splitlines():
            print(f"Page {page.number}, line {i}: '{line}'")
            i += 1

Every block is a tuple of 4 boundary box coordinates, followed by the string comprising the text of the paragraph.

关于python - 从pdf文档中提取文本时是否可以获取行号?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/76437736/

相关文章:

python - 如何使用 pyPDF2 反转多个 PDF 文件的顺序?

python - 如何用空格填充Python numpy chararray?

java - 从完整路径获取不带扩展名的文件名

python - 无需 OAuth 且只需 API key 即可获取 Youtube Analytics

python - 如何使用 python 在 google colab 中保存 json 转储?

java - 有什么好的方法可以将多维数组转换为 List<List<T>>?

Linux 上的 JAVA 堆大小监控

java - iText 图像调整大小

java - java中的pdf文件无法添加页眉或边距?

pdf - "Not LTV-enabled"是什么意思?