python - 如何从扫描文档中提取垂直标签和值？

标签 python machine-learning deep-learning data-mining text-classification

我正在制作一个文档解析器，它从文档中提取数据字段并以结构化方式存储它们。我的数据集中的每个字段都是水平的，很容易提取。

但是该模型在垂直字段上失败，例如我想从此类图像中提取发票号码和日期，而这是任何类型的预训练 OCR 都无法实现的 -

最佳答案

将png转换为pdf，然后使用pdf2txt.py -V

关于python - 如何从扫描文档中提取垂直标签和值？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59783226/

上一篇：machine-learning - scikit-learn 的决策树实现中如何保证 min_samples_leaf ？

下一篇：tensorflow - 增强数据集真的会改善机器学习模型吗

相关文章：

python - Pandas 数据框 : select multiple rows based on entries in other rows

c# - 从 C# 应用程序运行 .py 时控制台输出空白

python - 是否可以自动调整 PyTorch 中 torch.nn.Sequential 中 torch.nn.Flatten 之后的层的后续输入？

machine-learning - 如何在 Keras 中对批量大小应用均值/平均池化以获得整个批量的单个输出？

python - 是否可以通过 TensorFlow 实现带有注意力的动态 RNN？

python - 交叉熵损失突然增加到无穷大

python - 我使用哪些 Python Trove 分类器？

python - 如何用 Tornado 测试 aioredis

python - tensorflow 错误 : No Variables to optimize

python - 从随机样本(python)构建一个近似均匀的网格

©2024 IT工具网联系我们