validation - 从图像二进制数据中提取特征的工具

标签 validation machine-learning file-format feature-extraction fuzzing

我正在开发一个项目,其中的图像文件格式错误(模糊,即图像数据已被更改)。这些文件在各种平台上呈现时会导致来自平台的警告/崩溃/通过报告。

我正在尝试使用无监督机器学习构建一个防护罩,这将帮助我识别/分类这些图像是否为恶意图像。我有这些文件的二进制数据,但我不知道可以从中识别出哪些特征集/模式,因为从视觉上看,这些图像可以是任何东西。 (我需要能够从二进制数据中找到特征集)

我需要一些关于可用于从该二进制数据自动提取特征的工具/方法的建议;我可以将这些功能集与无监督学习算法(例如 Kohenen 的 SOM 等)一起使用。

我是新手,任何帮助都会很棒!

最佳答案

我认为这是不可行的。

问题是这些都是旧的漏洞,对它们的训练不会告诉您太多关于 future 的漏洞。因为这是一个极其不平衡的问题:没有一个漏洞使用与另一个漏洞相同的东西。因此,即使您生成相同类型的多个文件,您最终也可能会为每个漏洞利用提供一个相关的单个训练案例。

尽管如此,您需要做的是从文件元数据中提取特征。这就是漏洞所在,而不是实际图像中。因此,解析文件已经是问题所在,并且您的检测工具可能容易受到此类漏洞的攻击。<​​/p>

由于数据可能被压缩,简单的二进制功能也不起作用。

关于validation - 从图像二进制数据中提取特征的工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12385526/

相关文章:

javascript - Hapijs 在身份验证之前验证参数

python - 如何使用 Keras 生成器选择batch_size、steps_per_epoch 和 epoch

machine-learning - 分类器还是启发式?

c - C风格的字符串文件格式难题

delphi - 什么是 .tfc 文件以及如何使用它

java - MaterialBetterSpinner 验证

ruby-on-rails - Rails 3 validate_with 抛出 ArgumentError : wrong number of arguments

forms - 为什么 ColdFusion 认为值 "7+"是一个有效的整数值,我如何验证它不是?

machine-learning - 从单个单词中提取特征

java - 使用 Spark 高效读取 PDF/文本/word 文件