我正在用 Java 构建一个应用程序,用于扫描收据,并使用 OCR 和 tesseract 库提取所有文本。我已经在两张图像上运行了该程序,一张是我拍摄的,一张是来自互联网的,我用来自互联网的一张图像得到了几乎完美的结果,但从我的图像中得到了随机字符串。我该如何改变这一点?我需要完美品质的高分辨率图像吗?
我尝试拍摄更好的图像,甚至是只有一个单词的图像,但我什么也没得到。
Tesseract instance = new Tesseract();
instance.setDatapath(pathToMyTessData);
instance.setLanguage("fra");
String result = instance.doOCR(new File(myReceiptFile));
System.out.println(result);
我试图扫描的收据包含很多我不想提取的(对我来说无用的)信息,有什么方法可以只提取食品项目、日期、总数等......?
PS:我的票看起来像 this
最佳答案
也许你应该训练你的超立方体,还有另一篇关于这个的文章。 here
关于java - 在收据上使用 Tesseract 时如何获得更好的效果?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58192628/