java - 根据坐标或tessaract提取图像数据并将内容写入docs/docx word文件

标签 java python machine-learning image-processing

我有图像。想要使用 python 将具有相同布局的图像数据提取到 docx 文件中并以可读的形式。我已经尝试过在图像上应用 tessaract 并使用 pyteesaract 转换为 pdf 然后将pdf转换为word文件但我无法维护布局和格式。

最佳答案

这个问题之前已经回答过in here 。您可以使用 pdf2image 库来解决此问题:

from pdf2image import convert_from_path

pages = convert_from_path('sample.pdf', 400) //400 is the Image quality in DPI (default 200)

pages[0].save("sample.png")

关于java - 根据坐标或tessaract提取图像数据并将内容写入docs/docx word文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59309580/

上一篇：python - 对单个句子进行预测时，收到错误 "Number of features of the model must match the input."

下一篇：python - 如何处理分类变量列中的 0 值？

java - 得到？？？使用 JDBC 从 dbms_output.get_lines 输出

java - 如何更改 JDBC 编码以支持法语重音字符

python - 稀疏观察矩阵的层次聚类

2 列表元素的 Pythonic 交换

python - 在多个 GPU 上训练单个 pytorch 模型并修复某些层？

dataframe - 机器学习中的数据类型

python - 如何从图像中去除背景以有效应用 k 均值聚类

java - 如何在单击相应的 ListView 项时创建一个包含 SQLite 信息的对话框？

java - 如何按值而不是键对 HashMap 进行排序