iphone - 使用 Tesseract OCR 进行汉字识别

标签 iphone ios ocr tesseract

我一直在使用Tesseract 3.0.2 OCR SDK进行图片文字提取。但是,如果我使用中文文本图像并通过 OCR,那么 Tesseract 不会为我提供中文字符,而是我得到数字和英文字符。但是我需要我正在使用的图像中显示的汉字。

我怎样才能做到这一点?有什么办法可以获得中文字符而不是任何其他字符?

最佳答案

您需要下载中文训练数据(它将是一个类似于 chi_sim.traineddata 的文件)并将其添加到您的 tessdata 文件夹中。

下载文件 https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

然后像这样使用

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];

如果你有任何问题,你可以下载我的tessaract实验(支持中文) https://github.com/aryansbtloe/ExperimentWithTesseract.git

我已经测试过这个...希望你会发现它有用。

关于iphone - 使用 Tesseract OCR 进行汉字识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16581626/

相关文章:

iphone - 将 CALayer 用于 UITableViewCell

ios - 从 View 外部设置 SwiftUI @EnvironmentObject

ios - 所有原型(prototype)单元都必须有一个类吗?

matlab - 如何使用 MATLAB 使黑板文字看起来更清晰?

ocr - tesseract 没有得到小标签

ios - 如何仅从共享扩展启动应用程序而无需在 Swift 中弹出弹出窗口?

ios - 使用CGAfflineTransformMakeScale/Rotation仅执行一项操作

c# - 在 C# 中使用 IronOCR 进行光学字符识别

iphone - 处理变量分配和异步请求

ios - 在群组和公共(public)聊天的情况下,如何使用 QMServicesManager 从对话框列表中删除对话框?