我一直在努力尝试 使用我自己的数据集找出专栏的作者。
我打算使用 mlpy python 图书馆。它有很好的文档, (约 100 页 pdf)。我也对其他图书馆开放 建议。
问题是,我迷失在数据挖掘和机器学习中 概念。有太多的工作要做,太多的算法和 概念。
求指点,应该学什么算法/概念, 并搜索我的具体问题。
到目前为止,我已经构建了一个类似这样的数据集。
| author | feature x | feature y | feature z | some more features |
|--------+-----------+-----------+-----------+--------------------|
| A | 2 | 4 | 6 | .. |
| A | 1 | 1 | 5 | .. |
| B | 12 | 15 | 9 | .. |
| B | 13 | 13 | 13 | .. |
现在,我将得到一个新列并解析它,之后我将拥有所有 专栏的功能,我的目标是找出谁 该专栏的作者是。
因为我不是 ML 的人,我只能想到在 所有行上的特征并选择最接近的一个。但我很确定 这不是我应该走的路。
如果有任何指示、链接、阅读 Material 等,我将不胜感激。
最佳答案
如果您有足够的训练数据,那么您可以使用 kNN(k-最近邻)分类器来达到您的目的。它很容易理解,但功能强大。
检查 scikits.ann一个可能的实现。
This tutorial这里可以作为 scikits-learn 中的一个很好的引用。
编辑:另外,这里是kNN of scikits-learn的页面.您可以从给定的示例中轻松理解它。
而且,mlpy 也是 seems to have kNN .
关于python - 我应该为作者预测挖掘哪些算法/概念,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15531548/