python - 如何从扫描文档中提取垂直标签和值?

标签 python machine-learning deep-learning data-mining text-classification

我正在制作一个文档解析器,它从文档中提取数据字段并以结构化方式存储它们。我的数据集中的每个字段都是水平的,很容易提取。

enter image description here

但是该模型在垂直字段上失败,例如我想从此类图像中提取发票号码和日期,而这是任何类型的预训练 OCR 都无法实现的 -

enter image description here

最佳答案

将png转换为pdf,然后使用pdf2txt.py -V

关于python - 如何从扫描文档中提取垂直标签和值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59783226/

相关文章:

python - Pandas 数据框 : select multiple rows based on entries in other rows

c# - 从 C# 应用程序运行 .py 时控制台输出空白

python - 是否可以自动调整 PyTorch 中 torch.nn.Sequential 中 torch.nn.Flatten 之后的层的后续输入?

machine-learning - 如何在 Keras 中对批量大小应用均值/平均池化以获得整个批量的单个输出?

python - 是否可以通过 TensorFlow 实现带有注意力的动态 RNN?

python - 交叉熵损失突然增加到无穷大

python - 我使用哪些 Python Trove 分类器?

python - 如何用 Tornado 测试 aioredis

python - tensorflow 错误 : No Variables to optimize

python - 从随机样本(python)构建一个近似均匀的网格