machine-learning - 选择分类算法对名义数据和数值数据的混合进行分类?

标签 machine-learning data-mining classification

我有一个包含大约 100,000 条关于客户购买模式的记录的数据集。数据集包含

  • 年龄(从 2 到 120 的连续值),但我还计划按年龄范围进行分类。
  • 性别(0 或 1)
  • 地址(只能是六种类型或者我也可以用1到6的数字来表示)
  • 偏好商店(只能来自 7 家商店),这是我的类(class)问题。

所以我的问题是根据顾客的年龄、性别和位置对偏好店进行分类和预测。我尝试过使用朴素树和决策树,但它们的分类精度有点低。

我也在考虑逻辑回归,但我不确定性别和地址等离散值。但是,我也假设 SVM 具有一些内核技巧,但尚未尝试。

那么您建议使用哪种机器学习算法来提高这些功能的准确性。

最佳答案

问题在于,您以连续的尺度表示名义变量,这在您使用机器学习方法时在类之间强加了(虚假的)序数关系。例如,如果将地址编码为六个可能的整数之一,则地址 1 距离地址 2 的距离比距离地址 3、4、5、6 的距离更近。当您尝试学习任何东西时,这都会导致问题。

相反,请将 6 值分类变量转换为 6 个二元变量,每个分类值一个。然后,您的原始功能将产生六个功能,其中只有一个功能会打开。另外,请将年龄保留为整数值,因为将其分类会丢失信息。

至于方法,它不太可能产生太大的影响(至少在最初是这样)。选择对您来说更容易实现的那个。但是,请确保在测试集上运行之前在开发集上运行某种交叉验证参数选择,因为所有算法都具有会极大影响学习准确性的参数。

关于machine-learning - 选择分类算法对名义数据和数值数据的混合进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14274771/

相关文章:

machine-learning - 为什么用caffe训练时 `Train net output`损失和 `iteration loss`是相同的?

r - 使用 R 将句子转为单词表

cluster-analysis - 什么时候使用k均值聚类算法?

machine-learning - SVM顺序最小优化的收敛问题

r - 在 R 中使用 "~ call"和动态变量

python - 多标签分类 ML-kNN 与 KNN

amazon-web-services - 在标签中找到注释值 21。这大于类(class)数量

tensorflow - tensorflow 中的简单 softmax 分类器

python - 使用内部层的输出来拟合 Keras 模型?

R 规则 : Find closed association rules