java - 在 apache Spark 中使用朴素贝叶斯进行 Twitter 情绪分析

标签 java twitter apache-spark machine-learning apache-spark-mllib

我正在尝试使用 apache Spark 进行基本的 Twitter 情绪分析。

下页解释了 apache Spark 中使用的朴素贝叶斯函数，该函数可以解决上述问题。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html

当你查看 java 示例时，训练集和测试集给出为

JavaRDD<LabeledPoint> training = ... // training set
JavaRDD<LabeledPoint> test = ... // test set

我不知道它们是什么数据类型，但我可以理解它们是一些非英语输入。

我有一个推文列表。

“我爱我的国家。”
“在办公室度过美好的一天。”
“谷歌浏览器太糟糕了!”

如何使用朴素贝叶斯函数来处理文本？

对此的任何见解都会有所帮助。

最佳答案

LabeledPoint 的格式为 (double, Vectors(double[]))，其中第一个参数是标签，第二个参数是特征向量(仅非负实数)值)。但对于你的情况，它不匹配。这意味着您必须找到一种方法将数据转换为实际值。 TFIDF 似乎是一种方式。您可能有兴趣阅读this为了更好地理解示例。

关于java - 在 apache Spark 中使用朴素贝叶斯进行 Twitter 情绪分析，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25908536/

上一篇：machine-learning - 分类任务的显着性检验

下一篇：java - 为什么 LibSvm 准确率没有超过 50%？

相关文章：

Java图像抓取和显示

javascript - Twitter oauth 请求 token 上的 400 错误请求

php - 为什么我不能更新我们的 Twitter 状态？

python - PySpark 窗口不适用于指定的整数范围

scala - Spark Scala数据框udf返回行

algorithm - 数量重新分配逻辑 - 具有外部数据集的 MapGroups

JAVA - 正则表达式 : Unclosed Character Class

java - 将文件txt划分为Strings Java的子列表

java - 方法重写时出现异常问题

grails - 在对Twitter/Facebook进行身份验证之后，对Spring Security进行身份验证