python - 如何使用 Python 使用最近邻算法对数据进行分类?

标签 python machine-learning

我需要用(我希望)最近邻算法对一些数据进行分类。我用谷歌搜索了这个问题,发现了很多库(包括 PyML、mlPy 和 Orange),但我不确定从哪里开始。

我应该如何使用 Python 实现 k-NN?

最佳答案

特别是考虑到你在 Q 中提到的技术(k-最近邻),我强烈推荐 scikits.learn 。 [注意:发布此答案后,该项目的首席开发人员通知我一个 new homepage对于这个项目。]

我认为将这个库与其他库区分开来的一些特性(至少是我使用过的其他 Python ML 库,其中大部分是):

  • 一个广泛的诊断和测试库(包括绘图 模块,通过 Matplotlib)——包括特征选择算法, confusion matrix 、ROC、precision-recall等;

  • 精选的“含电池”数据集(包括 手写数字、面部图像等)特别适合机器学习技术;

  • 广泛的文档(鉴于这个项目是 只有大约两岁)包括教程和一步一步 示例代码(使用提供的数据集);

python ML 库无一异常(exception)(至少我现在能想到的)都是一流的。 (查看 PyMVPA homepag e 了解十几个最流行的 Python ML 库的列表。)

例如,在过去的 12 个月中,我使用过 ffnet(用于 MLP)、neurolab(也用于 MLP)、PyBrain( Q-Learning)、neurolab (MLP) 和 PyMVPA (SVM)(均可从 Python Package Index 获得)——它们彼此之间存在显着差异 w/r/成熟度、范围和提供的基础设施,但我发现它们都具有非常高的质量。

不过,其中最好的可能是 scikits.learn;例如,我不知道任何 python ML 库——除了 scikits.learn——包括我上面提到的三个特性中的任何一个(尽管一些有可靠的示例代码和/或教程,我不知道集成这些带有研究级数据集和诊断算法的库)。

其次,鉴于您打算使用的技术(k-最近邻)scikits.learn 是一个特别好的选择。 Scikits.learn 包含两个 regression 的 kNN 算法。 (返回分数)和 classification (返回一个类标签),以及每个的详细示例代码。

使用 scikits.learn k-最近邻模块(字面意思)再简单不过了:

>>> # import NumPy and the relevant scikits.learn module
>>> import numpy as NP
>>> from sklearn import neighbors as kNN

>>> # load one of the sklearn-suppplied data sets
>>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> # the call to load_iris() loaded both the data and the class labels, so
>>> # bind each to its own variable
>>> data = iris.data
>>> class_labels = iris.target

>>> # construct a classifier-builder by instantiating the kNN module's primary class
>>> kNN1 = kNN.NeighborsClassifier()

>>> # now construct ('train') the classifier by passing the data and class labels
>>> # to the classifier-builder
>>> kNN1.fit(data, class_labels)
      NeighborsClassifier(n_neighbors=5, leaf_size=20, algorithm='auto')

更重要的是,与几乎所有其他 ML 技术不同,k-最近邻的关键不是编码一个工作的分类器构建器,而是构建生产级 k-最近邻分类器/回归器的困难步骤是持久层 - -即,存储和快速检索从中选择最近邻居的数据点。对于 kNN 数据存储层,scikits.learn 包含一个用于球树的算法(除了明显优于kd-之外,我几乎一无所知。树(k-NN 的传统数据结构),因为它的性能在高维特征空间中不会降低。

此外,k-最近邻需要适当的相似度度量(欧几里得距离是通常的选择,但并不总是最好的选择)。 Scikits.learn 包含一个独立模块,该模块由各种距离指标以及用于选择合适距离指标的测试算法组成。

最后,我也没有提到一些库,因为它们超出了范围(PyML、贝叶斯);它们主要不是面向开发人员的“库”,而是面向最终用户的应用程序(例如 Orange),或者它们具有不寻常或难以安装的依赖项(例如 mlpy,它需要 gsl,而后者又必须从源代码构建) 至少对于我的操作系统,即 Mac OS X。

(注意:我不是 scikits.learn 的开发者/提交者。)

关于python - 如何使用 Python 使用最近邻算法对数据进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7326958/

相关文章:

python - 在 H2O 中校准 AutoML 模型

python - 如何获得一个值的 pandas Series 虚拟表示

R:实现我自己的梯度提升算法

python-3.x - 修改 Chainer DCGAN 模型的输入图像的大小

python - 我的播放器移动不正确,按住键时,它应该连续移动,但只移动一次

将自身更改为列表的python函数

python - 将 Python Pandas 中的列名从日期时间对象更改为字符串?

python - 通过 scikit-learn 进行回归的半监督学习

python, tweepy : urllib2. HTTPError: HTTP 错误 403: 禁止

python - 为什么 Python 编译这段代码没有抛出错误?