machine-learning - 选择分类算法对名义数据和数值数据的混合进行分类？

我有一个包含大约 100,000 条关于客户购买模式的记录的数据集。数据集包含

所以我的问题是根据顾客的年龄、性别和位置对偏好店进行分类和预测。我尝试过使用朴素树和决策树，但它们的分类精度有点低。

我也在考虑逻辑回归，但我不确定性别和地址等离散值。但是，我也假设 SVM 具有一些内核技巧，但尚未尝试。

那么您建议使用哪种机器学习算法来提高这些功能的准确性。

最佳答案

问题在于，您以连续的尺度表示名义变量，这在您使用机器学习方法时在类之间强加了(虚假的)序数关系。例如，如果将地址编码为六个可能的整数之一，则地址 1 距离地址 2 的距离比距离地址 3、4、5、6 的距离更近。当您尝试学习任何东西时，这都会导致问题。

相反，请将 6 值分类变量转换为 6 个二元变量，每个分类值一个。然后，您的原始功能将产生六个功能，其中只有一个功能会打开。另外，请将年龄保留为整数值，因为将其分类会丢失信息。

至于方法，它不太可能产生太大的影响(至少在最初是这样)。选择对您来说更容易实现的那个。但是，请确保在测试集上运行之前在开发集上运行某种交叉验证参数选择，因为所有算法都具有会极大影响学习准确性的参数。

关于machine-learning - 选择分类算法对名义数据和数值数据的混合进行分类？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14274771/