apache-spark - 将带有分类数据的 csv 转换为 libsvm

我正在使用 spark MLlib 构建机器学习模型。如果数据中有分类变量，我需要提供 libsvm 格式文件作为输入。

我尝试将 csv 文件转换为 libsvm 使用 1. Convert.c 按照 libsvm 站点中的建议 2. phraug github

中的Csvtolibsvm.py

但这两个脚本似乎都没有转换分类数据。我还安装了 weka 并尝试保存为 libsvm 格式。但是在 weka explorer 中找不到该选项。

请建议将带有分类数据的 csv 转换为 libsvm 格式的任何其他方法，或者如果我在这里遗漏任何内容，请告诉我。

提前感谢您的帮助。

最佳答案

我猜您想训练 SVM。它需要一个 rdd [LabeledPoint] 的输入。

我建议您将分类列与此处的第二个答案类似:

LogisticRegression 案例与 SVM 案例非常相似。

关于apache-spark - 将带有分类数据的 csv 转换为 libsvm，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31445693/

相关文章：

apache-spark - 如何使用 PySpark 保存 IDFmodel