我正在使用 spark MLlib
构建机器学习模型。如果数据中有分类变量,我需要提供 libsvm
格式文件作为输入。
我尝试将 csv
文件转换为 libsvm
使用
1. Convert.c
按照 libsvm
站点中的建议
2. phraug
github
Csvtolibsvm.py
但这两个脚本似乎都没有转换分类数据。
我还安装了 weka
并尝试保存为 libsvm
格式。但是在 weka explorer
中找不到该选项。
请建议将带有分类数据的 csv
转换为 libsvm
格式的任何其他方法,或者如果我在这里遗漏任何内容,请告诉我。
提前感谢您的帮助。
最佳答案
我猜您想训练 SVM。它需要一个 rdd [LabeledPoint] 的输入。
https://spark.apache.org/docs/1.4.1/api/scala/#org.apache.spark.mllib.classification.SVMWithSGD
我建议您将分类列与此处的第二个答案类似:
How to transform a categorical variable in Spark into a set of columns coded as {0,1}?
LogisticRegression 案例与 SVM 案例非常相似。
关于apache-spark - 将带有分类数据的 csv 转换为 libsvm,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31445693/