python - 使用spark ML 2.2.0中的sklearn-python模型进行预测

标签 python apache-spark machine-learning scikit-learn apache-spark-mllib

我正在使用 sklearn 在 python 中解决文本分类问题。我已经创建了模型并将其保存在 pickle 中。

下面是我在sklearn中使用的代码。

vectorizerPipe = Pipeline([('tfidf', TfidfVectorizer(lowercase=True,
        stop_words='english')),
('classification', OneVsRestClassifier(LinearSVC(penalty='l2', loss='hinge'))),])

prd=vectorizerPipe.fit(features_used,labels_used])

f = open(file_path, 'wb')
pickle.dump(prd, f)

有没有什么方法可以使用相同的pickle来获取基于DataFrame的apache Spark而不是基于RDD的输出。我浏览了以下文章，但没有找到合适的实现方法。

what-is-the-recommended-way-to-distribute-a-scikit-learn-classifier-in-spark
how-to-do-prediction-with-sklearn-model-inside-spark -> 我在 StackOverflow 上发现了这两个问题，并且发现它们很有用。

deploy-a-python-model-more-efficiently-over-spark

我是机器学习的初学者。所以，如果这个解释很天真，请原谅我。任何相关的示例或实现都会有所帮助。

最佳答案

RDD -> 使用 Spark 的 Spark 数据框

喜欢:

import spark.implicits._
val testDF = rdd.map {line=>
                      (line._1,line._2)
                     }.toDF("col1","col2")

关于python - 使用spark ML 2.2.0中的sklearn-python模型进行预测，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50639614/

上一篇：python - Tensorflow:可变序列长度和批量大小

下一篇：python - 查找原始特征对用作内核 PCA 中输入的主成分的影响

相关文章：

python - 看不到来自另一台设备的 UDP 多播消息

python - 拆分一个fasta文件并在第一行的基础上重命名

apache-spark - 在 Pyspark 中从带有字符串列表的列中获取最频繁的字符串

machine-learning - 激活函数之前对数据进行归一化

python - Google 应用引擎 - 订购列出的项目

python - 如何查看 RabbitMQ 中的排队任务？

python - Spark : IllegalArgumentException: 'Unsupported class file major version 55'

apache-spark - Spark 中的任务是什么？ Spark Worker如何执行jar文件？

python - 什么是如何阅读 TensorBoard 的直方图特征的一个很好的解释？

r - 对R中k在1到21之间的所有奇数值进行knn分类