我一直在使用Tesseract 3.0.2 OCR SDK进行图片文字提取。但是,如果我使用中文文本图像并通过 OCR,那么 Tesseract 不会为我提供中文字符,而是我得到数字和英文字符。但是我需要我正在使用的图像中显示的汉字。
我怎样才能做到这一点?有什么办法可以获得中文字符而不是任何其他字符?
最佳答案
您需要下载中文训练数据(它将是一个类似于 chi_sim.traineddata 的文件)并将其添加到您的 tessdata 文件夹中。
下载文件 https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata
然后像这样使用
Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];
如果你有任何问题,你可以下载我的tessaract实验(支持中文) https://github.com/aryansbtloe/ExperimentWithTesseract.git
我已经测试过这个...希望你会发现它有用。
关于iphone - 使用 Tesseract OCR 进行汉字识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16581626/