image - 与 OCR 逆向工程作斗争

标签 image text ocr piracy

我指的是基于软件的 OCR?图像到文本引擎的转换工具,stackoverflow 上有大量关于构建 OCR 的帖子,但我的看法恰恰相反,就像关于如何保护我的图像免受逆向工程的任何指导。

例如,我有只包含文本的图像,我怎样才能让任何人都难以解码数据,是否有任何所需的图像格式可以做到这一点?或者我们可以混淆图像?

使用特殊字体或失真能否保证 OCR 保护?尽管我的要求不允许提供太多扭曲的文本。

任何方向都会很有帮助

最佳答案

据我所知,您收集了一些受版权保护的文本,这些文本应该可供人类清晰阅读,但您不希望它以电子形式从您的服务器中泄露。我认为混淆文本使其更难进行 OCR 不是一个好主意,因为它会使人类无法阅读,尤其是在文本非常长的情况下。基本上,人类容易阅读的内容可以完美地进行 OCR 编辑。 OCR 困难的事情对人来说也很困难。在最坏的情况下,攻击者可能会雇用一家印度公司来手动重新输入文本,这实际上并没有那么昂贵。

我会建议你寻找其他方面来做好保护。您的用例如何?为什么用户可以在他们的 PC 上将您的文本作为图像获取?他们下载的是 PDF 还是图像文件?在这种情况下,与下载文件的可能性作斗争而不是使其不可读会简单得多。

例如,您可能会考虑不立即授予对整个文件的访问权限,而是逐页显示它,并需要人工交互才能进入下一页。您甚至可能会扰乱您的 Web 界面,使其无法通过典型的站点下载实用程序下载所有内容。每个页面都应显示在相同的 URL 上,但实际导航应使用 AJAX 或什至某些专有接口(interface)与服务器通信。

另一种方法是在每个页面上制作许多人类不可见的虚假链接,但它们会误导下载实用程序,使他们下载大量错误的内容,或以错误的顺序下载使其无法使用。

如果您能成功地对抗自动下载,您甚至不必以图像形式提供您的内容,它可以是纯文本,但只是其中的一小部分。它无论如何都无法使用。

希望这能让您知道该走哪条路。

关于image - 与 OCR 逆向工程作斗争,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9138333/

相关文章:

java - 添加OCR库会导致Eclipse错误

docker - 无法从Docker中的挂载目录读取文件

Java Webapp - 在哪里存储图像

php - 我应该在每次请求时动态生成每个缩略图,还是将它们存储在图像上传时?

image - Grails 资源插件、模块和 <r :img> to render images?

matplotlib -\frac{}{} 在 plt.text 中不起作用?

javascript - 当图像位于同一域时,Canvas 元素未呈现为 PNG(安全错误)

javascript - 为什么 Phaser 的 setText() 会导致 CSS 警告 "Expected color but found ' 0'."?

css - 任何浏览器中的奇怪字体外观

python - 训练 Tesseract OCR 消除歧义