我无法使用node-tesseract准确读取表单。只能识别并正确返回表单的打印文本,而返回的手写文本带有一些特殊字符。
我的代码是,
var options = {
l: 'deu',
psm: 6,
env: {
maxBuffer: 4096 * 4096
}
};
tesseract.process('./server/images/form.jpg', options, function (err,text) {
if (err) {
return console.log("An error occured: ", err);
}
console.log("Recognized text:");
console.log(text);
});
我的输入 ------> 所有者 Brian Dude
输出------> OW_NER ägga ] )ggé;= ‘
此处,所有者是此处提交的一些文本
最佳答案
- 看看以下论文。两者都是使用 Tesseract 训练过程进行手写识别的示例。
Tesseract Training for Handwritten Digit Recognition
Training Tesseract for Roman Font Handwriting
查看官方 Tesseract 培训页面。
以下链接将带您完成培训过程,它对我帮助很大。 https://web.archive.org/web/20170820212334/http://www.resolveradiologic.com:80/blog/2013/01/15/training-tesseract
使用第三方 GUI 进行 Tesseract 训练,它会让您的生活变得更加轻松。我推荐 tesseract4java 和 jTessBoxEditor(两者都适用于 OS X)
关于node.js - 无法使用node-tesseract从表单中读取手写文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42526607/