java - Java的支持 vector 机?

标签 java machine-learning svm mahout

我想用 Java 编写一个“智能监视器”,它会在它检测到即将出现的性能问题时发出警报。我的 Java 应用正在将结构化格式的数据写入日志文件:

<datetime> | <java-method> | <seconds-to-execute>

因此,例如,如果我有一个执行时间为 812 毫秒的 Widget#doSomething(String) 方法,它将被记录为:

2013-03-24 11:39:21 | Widget#doSomething(String) | 812

随着性能开始下降(例如在主要收集期间、峰值负载期间或系统只是缓慢爬行),方法执行时间开始减慢;所以最右边的列开始看到巨大的数字(有时执行一个方法需要 20 到 40 秒)。

在大学里——为了一个机器学习练习——我写了我的教授所说的线性二分法,它采用简单的测试数据(一个人的高度、体重和性别)并“学习”了如何根据高度/体重将一个人分类为男性或女性。然后,一旦它拥有了所有的训练数据,我们就给它提供了新的数据,看看它可以多准确地确定性别。

认为线性二分法的多元版本叫做support vector machine (SVM) .如果我错了,请澄清一下,我会将问题的标题更改为更合适的名称。 无论如何,我需要这个应用来做以下事情:

  • 在“测试模式”下运行,我从我的主 Java 应用程序(我希望监控的应用程序)向它提供结构化日志文件,它获取每个日志条目(如上所示)并将其用于 测试数据
  • 只有 java-methodseconds-to-execute 列作为输入/测试数据很重要;我不在乎日期时间
  • 在“监控模式”下运行,主动从日志文件中读取新的日志数据,并使用类似的“机器学习”技术来确定性能下降是否迫在眉睫

需要注意的是,seconds-to-execute 列并不是这里唯一重要的因素,因为我已经看到某些方法在性能出色的时期的可怕时机,以及非常好的时机对于其他方法,有时服务器似乎即将死亡并插入雏菊。所以很明显某些方法是“加权的”/比其他方法对性能更重要。

我的问题

  • 在谷歌上搜索“线性二分法”或“支持 vector 机”会发现一些非常可怕的、高度学术性的、超大脑的白皮书,我只是没有精力(也没有时间)去阅读它们——除非它们真的是我唯一的选择;所以我想问有没有外行人对这些东西的介绍,或者有一个很棒的网站/文章/教程来用 Java 构建这样的系统
  • 是否有任何可靠/稳定的开源 Java 库?我只能找到jlibsvmsvmlearn但前者看起来处于纯 beta 状态,而后者似乎只支持二元决策(就像我的旧线性二分法器)。我知道有Mahout但它位于 Hadoop 之上,而且我认为我没有足够的数据来保证建立自己的 Hadoop 集群的时间和精力。

最佳答案

您描述的“智能监视器”正是时间序列分类。

有很多分类算法。它们基本上都采用一个矩阵,其中行是观察结果,列是以某种方式描述观察结果的“特征”,以及长度为 0 或 1 的行的标签 vector 。在您的问题中,观察结果可能是一个微小的样本,并且您的标签 vector 在遇到性能问题的时间段内的值为 1,否则为 0。

此定义隐含需要对数据重新采样(必要时使用众数/中值/平均值),以便均匀地定义每个观察值,例如秒、分钟或小时。

生成特征是关键部分。我可能会从 2 个特征开始,即观察 x_i 和 x_i-1 之间的原始值和(一次)差异值。我们将这些定义为滞后 2。从技术上讲,这 4 个特性。每个功能都无法展望 future 。对于每次观察,每个特征都必须代表相同的事物。

例如考虑长度为 10 的时间序列:

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

如果我们想在过去使用滞后两个间隔生成一组特征,那么时间序列的前两个元素被认为是老化样本。我们不能使用与它们相关的观察来训练算法。

8 行 2 列的原始值将是

[[ 1.,  0.]
 [ 2.,  1.],
 [ 3.,  2.],
 [ 4.,  3.],
 [ 5.,  4.],
 [ 6.,  5.],
 [ 7.,  6.],
 [ 8.,  7.]]

差异值

[[ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.]])

这些将列堆叠。您可以探索许多其他功能。 Rolling mean将是我的下一个选择。

如果您想进一步预测 future ,那么您的训练数据应该比您的标签 vector 滞后。

如果性能不令人满意,请尝试通过在更大的窗口上选择滚动平均值来添加更多功能,或者在将来添加更多功能。提高时间序列算法性能的一个巧妙技巧是包含前一个时间间隔的预测值。

将您的分类器拟合到数据的早期部分,然后观察其在数据后期部分的准确性。您可以使用许多分类器指标。如果您选择使用输出概率而不是硬 1/0 的分类器,那么您的选择范围甚至会扩大。 (就像分类器的用途一样。)

Precision and recall是分类器的直观性能指标。

对数据的前半部分(早期)进行训练并在后半部分(稍后)进行测试。

就算法而言,我会研究逻辑回归。如果性能不令人满意并且您已经用尽了特征提取选项,我只会寻找其他地方。

Mallet似乎是该任务的一个很好的库。 See this bit of the docs.

我最近发现了JSAT ,看起来很有希望。

有更具体的时间序列分类方法明确考虑了观察和标签的顺序性质。这是对时间序列的分类的通用改编。

关于java - Java的支持 vector 机?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15625359/

相关文章:

Java netbeans 绑定(bind)。如何刷新绑定(bind)..?

java - 安卓录像错误

python - 如何用keras近似行列式

java - 如何在异步连接返回时切换 Activity ?

python - 为什么这一行会产生错误?

python - 如何将残差转换为原始值 Python statsmodels

python-2.7 - RASA 没有识别出正确的 Intent

image-processing - 带卡方核的线性支持向量机与 rbf 核

machine-learning - scikit-learn 中的 SVC 和 LinearSVC 在什么参数下等效?

java - System.out.println() 是否影响代码效率?