python - 我应该为作者预测挖掘哪些算法/概念

标签 python machine-learning classification prediction

我一直在努力尝试 使用我自己的数据集找出专栏的作者。

我打算使用 mlpy python 图书馆。它有很好的文档, (约 100 页 pdf)。我也对其他图书馆开放 建议。

问题是,我迷失在数据挖掘和机器学习中 概念。有太多的工作要做,太多的算法和 概念。

求指点,应该学什么算法/概念, 并搜索我的具体问题。

到目前为止,我已经构建了一个类似这样的数据集。

| author | feature x | feature y | feature z | some more features |
|--------+-----------+-----------+-----------+--------------------|
| A      |         2 |         4 |         6 | ..                 |
| A      |         1 |         1 |         5 | ..                 |
| B      |        12 |        15 |         9 | ..                 |
| B      |        13 |        13 |        13 | ..                 |

现在,我将得到一个新列并解析它,之后我将拥有所有 专栏的功能,我的目标是找出谁 该专栏的作者是。

因为我不是 ML 的人,我只能想到在 所有行上的特征并选择最接近的一个。但我很确定 这不是我应该走的路。

如果有任何指示、链接、阅读 Material 等,我将不胜感激。

最佳答案

如果您有足够的训练数据,那么您可以使用 kNN(k-最近邻)分类器来达到您的目的。它很容易理解,但功能强大。

检查 scikits.ann一个可能的实现。

This tutorial这里可以作为 scikits-learn 中的一个很好的引用。

编辑:另外,这里是kNN of scikits-learn的页面.您可以从给定的示例中轻松理解它。

而且,mlpy 也是 seems to have kNN .

关于python - 我应该为作者预测挖掘哪些算法/概念,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15531548/

相关文章:

python - Python:在网站上登录

python - 这个 "operation"在 Python 中是如何调用的

python - 这个 eval() 是可破解的吗?

machine-learning - 用于日记条目情感分析的数据集

python - 当我运行 ' FileNotFoundError: [Errno 2] No such file or directory:' 时,为什么我在终端中收到 `python ./train.py`

python - 学习 : How to make an ensemble for two binary classifiers?

python - Pandas /Python : interpolation of multiple columns based on values specified for one reference column

r - DBSCAN 用于按位置和密度对数据进行聚类

machine-learning - 使用 tflearn 进行回归的神经网络

python - 使用 Knn 分类器时出现无效形状错误