apache-spark - 将带有分类数据的 csv 转换为 libsvm

标签 apache-spark libsvm apache-spark-mllib

我正在使用 spark MLlib 构建机器学习模型。如果数据中有分类变量,我需要提供 libsvm 格式文件作为输入。

我尝试将 csv 文件转换为 libsvm 使用 1. Convert.c 按照 libsvm 站点中的建议 2. phraug github

中的Csvtolibsvm.py

但这两个脚本似乎都没有转换分类数据。 我还安装了 weka 并尝试保存为 libsvm 格式。但是在 weka explorer 中找不到该选项。

请建议将带有分类数据的 csv 转换为 libsvm 格式的任何其他方法,或者如果我在这里遗漏任何内容,请告诉我。

提前感谢您的帮助。

最佳答案

我猜您想训练 SVM。它需要一个 rdd [LabeledPoint] 的输入。

https://spark.apache.org/docs/1.4.1/api/scala/#org.apache.spark.mllib.classification.SVMWithSGD

我建议您将分类列与此处的第二个答案类似:

How to transform a categorical variable in Spark into a set of columns coded as {0,1}?

LogisticRegression 案例与 SVM 案例非常相似。

关于apache-spark - 将带有分类数据的 csv 转换为 libsvm,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31445693/

相关文章:

apache-spark - 如何使用 PySpark 保存 IDFmodel

apache-spark - Apache Spark MLlib 模型文件格式

apache-spark - 正确保存/加载 MatrixFactorizationModel

apache-spark - 在 Spark 2.3.0 中读取 Zstandard 压缩文件

java - java.1.8 中是否有像 scala 中那样在 Map 中传递/存储函数引用?

c++ - 使用 SVM 进行目标检测

matlab - 使用 libsvm 进行交叉验证后的再训练

java - Eclipse:Apache Spark 2.1.1,org.apache.spark.logging 无法解析

azure - 无法从 HDInsight 群集上的 Spark UI 访问日志

python - 如何获得特征的权重