validation - 从图像二进制数据中提取特征的工具

我正在开发一个项目，其中的图像文件格式错误(模糊，即图像数据已被更改)。这些文件在各种平台上呈现时会导致来自平台的警告/崩溃/通过报告。

我正在尝试使用无监督机器学习构建一个防护罩，这将帮助我识别/分类这些图像是否为恶意图像。我有这些文件的二进制数据，但我不知道可以从中识别出哪些特征集/模式，因为从视觉上看，这些图像可以是任何东西。 (我需要能够从二进制数据中找到特征集)

我需要一些关于可用于从该二进制数据自动提取特征的工具/方法的建议；我可以将这些功能集与无监督学习算法(例如 Kohenen 的 SOM 等)一起使用。

我是新手，任何帮助都会很棒!

最佳答案

我认为这是不可行的。

问题是这些都是旧的漏洞，对它们的训练不会告诉您太多关于 future 的漏洞。因为这是一个极其不平衡的问题:没有一个漏洞使用与另一个漏洞相同的东西。因此，即使您生成相同类型的多个文件，您最终也可能会为每个漏洞利用提供一个相关的单个训练案例。

尽管如此，您需要做的是从文件元数据中提取特征。这就是漏洞所在，而不是实际图像中。因此，解析文件已经是问题所在，并且您的检测工具可能容易受到此类漏洞的攻击。</p>

由于数据可能被压缩，简单的二进制功能也不起作用。

关于validation - 从图像二进制数据中提取特征的工具，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12385526/

相关文章：

javascript - Hapijs 在身份验证之前验证参数