image - 与 OCR 逆向工程作斗争

我指的是基于软件的 OCR？图像到文本引擎的转换工具，stackoverflow 上有大量关于构建 OCR 的帖子，但我的看法恰恰相反，就像关于如何保护我的图像免受逆向工程的任何指导。

例如，我有只包含文本的图像，我怎样才能让任何人都难以解码数据，是否有任何所需的图像格式可以做到这一点？或者我们可以混淆图像？

使用特殊字体或失真能否保证 OCR 保护？尽管我的要求不允许提供太多扭曲的文本。

任何方向都会很有帮助

最佳答案

据我所知，您收集了一些受版权保护的文本，这些文本应该可供人类清晰阅读，但您不希望它以电子形式从您的服务器中泄露。我认为混淆文本使其更难进行 OCR 不是一个好主意，因为它会使人类无法阅读，尤其是在文本非常长的情况下。基本上，人类容易阅读的内容可以完美地进行 OCR 编辑。 OCR 困难的事情对人来说也很困难。在最坏的情况下，攻击者可能会雇用一家印度公司来手动重新输入文本，这实际上并没有那么昂贵。

我会建议你寻找其他方面来做好保护。您的用例如何？为什么用户可以在他们的 PC 上将您的文本作为图像获取？他们下载的是 PDF 还是图像文件？在这种情况下，与下载文件的可能性作斗争而不是使其不可读会简单得多。

例如，您可能会考虑不立即授予对整个文件的访问权限，而是逐页显示它，并需要人工交互才能进入下一页。您甚至可能会扰乱您的 Web 界面，使其无法通过典型的站点下载实用程序下载所有内容。每个页面都应显示在相同的 URL 上，但实际导航应使用 AJAX 或什至某些专有接口(interface)与服务器通信。

另一种方法是在每个页面上制作许多人类不可见的虚假链接，但它们会误导下载实用程序，使他们下载大量错误的内容，或以错误的顺序下载使其无法使用。

如果您能成功地对抗自动下载，您甚至不必以图像形式提供您的内容，它可以是纯文本，但只是其中的一小部分。它无论如何都无法使用。

希望这能让您知道该走哪条路。

关于image - 与 OCR 逆向工程作斗争，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9138333/

image - 与 OCR 逆向工程作斗争

上一篇：某个类的所有跨度的标题的css

下一篇：HTML - 如何在一个页面上有效地做多个 Facebook Like 按钮