php - Python/PHP Tesseract 输出优化技巧

标签 php python tesseract python-tesseract

我有一个 python 脚本,可以扫描收据,然后将其输出到扫描文件中。在新文件上使用 tesseract imagefile 输出文件。我可以获得良好的可读文本,但解析如下所示。有没有办法使用 tesseract 将购买的商品与价格对齐?我更喜欢用 PHP 或 Python 来完成。

WHELE
POODS .4
M

Merchant Name and Address

365 BHCON LS

365 BHCON LS

365 BHCON LS

365 BHCON LS
BROTH CHIC

FLOUR HLHONO

CHKN BRST BNLSS SK
HEAVY CREHH

BHLSHC REOUCT

BEEF GRND 85/1§«
JUICE COF CHSHEU C

i . DOCS PINT ORGRNIC

NP 4.99
NP 4.99
NP 4.99
NP 4.99
NP 2.19
NRuqfl1.99
NP 18.80
NP 3.39
NP §.49
NP ’.04
NP ‘f:,99
NP 14.49

HNY HLMONO BUTTER NP 9.99

**** TEX .00 BRL

最佳答案

尝试使用 -psm 参数。有关更多想法,请参阅 wiki[1]。

[1] https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

关于php - Python/PHP Tesseract 输出优化技巧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34374549/

相关文章:

php - 在 PHP 中使用 DOMDocument 包裹 h3 标签集之间的所有 HTML 标签

c++ - 无法理解 float 和对象实例化之间比较的原因

python - 没有名为 pytesseract 的模块错误

ocr - Tesseract 训练新字体

java - 利弊 : Jetbrains IntelliJ/Sublime Text

php - 使用 jQuery 按 <td> 过滤表中的 mySQL 查询结果?

php - 在 PHP : What difference does a leading backslash make? 中导入类和命名空间

python - 如何在 keras tensorflow 2.3 中使用随机缩放

python - 使用 reduce 选项更改数据类型的 Pandas 调用适用于空数据框

python - 重新排序行值 csv pandas