python - 我应该为作者预测挖掘哪些算法/概念

标签 python machine-learning classification prediction

我一直在努力尝试使用我自己的数据集找出专栏的作者。

我打算使用 mlpy python 图书馆。它有很好的文档， (约 100 页 pdf)。我也对其他图书馆开放建议。

问题是，我迷失在数据挖掘和机器学习中概念。有太多的工作要做，太多的算法和概念。

求指点，应该学什么算法/概念，并搜索我的具体问题。

到目前为止，我已经构建了一个类似这样的数据集。

| author | feature x | feature y | feature z | some more features |
|--------+-----------+-----------+-----------+--------------------|
| A      |         2 |         4 |         6 | ..                 |
| A      |         1 |         1 |         5 | ..                 |
| B      |        12 |        15 |         9 | ..                 |
| B      |        13 |        13 |        13 | ..                 |

现在，我将得到一个新列并解析它，之后我将拥有所有专栏的功能，我的目标是找出谁该专栏的作者是。

因为我不是 ML 的人，我只能想到在所有行上的特征并选择最接近的一个。但我很确定这不是我应该走的路。

如果有任何指示、链接、阅读 Material 等，我将不胜感激。

最佳答案

如果您有足够的训练数据，那么您可以使用 kNN(k-最近邻)分类器来达到您的目的。它很容易理解，但功能强大。

检查 scikits.ann一个可能的实现。

This tutorial这里可以作为 scikits-learn 中的一个很好的引用。

编辑:另外，这里是kNN of scikits-learn的页面.您可以从给定的示例中轻松理解它。

而且，mlpy 也是 seems to have kNN .

关于python - 我应该为作者预测挖掘哪些算法/概念，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15531548/