我有一个 python 脚本,可以扫描收据,然后将其输出到扫描文件中。在新文件上使用 tesseract imagefile 输出文件。我可以获得良好的可读文本,但解析如下所示。有没有办法使用 tesseract 将购买的商品与价格对齐?我更喜欢用 PHP 或 Python 来完成。
WHELE
POODS .4
M
Merchant Name and Address
365 BHCON LS
365 BHCON LS
365 BHCON LS
365 BHCON LS
BROTH CHIC
FLOUR HLHONO
CHKN BRST BNLSS SK
HEAVY CREHH
BHLSHC REOUCT
BEEF GRND 85/1§«
JUICE COF CHSHEU C
i . DOCS PINT ORGRNIC
NP 4.99
NP 4.99
NP 4.99
NP 4.99
NP 2.19
NRuqfl1.99
NP 18.80
NP 3.39
NP §.49
NP ’.04
NP ‘f:,99
NP 14.49
HNY HLMONO BUTTER NP 9.99
**** TEX .00 BRL
最佳答案
尝试使用 -psm 参数。有关更多想法,请参阅 wiki[1]。
[1] https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality
关于php - Python/PHP Tesseract 输出优化技巧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34374549/