我正在开发一个项目,其中的图像文件格式错误(模糊,即图像数据已被更改)。这些文件在各种平台上呈现时会导致来自平台的警告/崩溃/通过报告。
我正在尝试使用无监督机器学习构建一个防护罩,这将帮助我识别/分类这些图像是否为恶意图像。我有这些文件的二进制数据,但我不知道可以从中识别出哪些特征集/模式,因为从视觉上看,这些图像可以是任何东西。 (我需要能够从二进制数据中找到特征集)
我需要一些关于可用于从该二进制数据自动提取特征的工具/方法的建议;我可以将这些功能集与无监督学习算法(例如 Kohenen 的 SOM 等)一起使用。
我是新手,任何帮助都会很棒!
最佳答案
我认为这是不可行的。
问题是这些都是旧的漏洞,对它们的训练不会告诉您太多关于 future 的漏洞。因为这是一个极其不平衡的问题:没有一个漏洞使用与另一个漏洞相同的东西。因此,即使您生成相同类型的多个文件,您最终也可能会为每个漏洞利用提供一个相关的单个训练案例。
尽管如此,您需要做的是从文件元数据中提取特征。这就是漏洞所在,而不是实际图像中。因此,解析文件已经是问题所在,并且您的检测工具可能容易受到此类漏洞的攻击。</p>
由于数据可能被压缩,简单的二进制功能也不起作用。
关于validation - 从图像二进制数据中提取特征的工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12385526/