java - 在 apache Spark 中使用朴素贝叶斯进行 Twitter 情绪分析

标签 java twitter apache-spark machine-learning apache-spark-mllib

我正在尝试使用 apache Spark 进行基本的 Twitter 情绪分析。

下页解释了 apache Spark 中使用的朴素贝叶斯函数,该函数可以解决上述问题。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html

当你查看 java 示例时, 训练集和测试集给出为

JavaRDD<LabeledPoint> training = ... // training set
JavaRDD<LabeledPoint> test = ... // test set

我不知道它们是什么数据类型,但我可以理解它们是一些非英语输入。

我有一个推文列表。

“我爱我的国家。”
“在办公室度过美好的一天。”
“谷歌浏览器太糟糕了!”

如何使用朴素贝叶斯函数来处理文本?

对此的任何见解都会有所帮助。

最佳答案

LabeledPoint 的格式为 (double, Vectors(double[])),其中第一个参数是标签,第二个参数是特征向量(仅非负实数)值)。但对于你的情况,它不匹配。这意味着您必须找到一种方法将数据转换为实际值。 TFIDF 似乎是一种方式。您可能有兴趣阅读this为了更好地理解示例。

关于java - 在 apache Spark 中使用朴素贝叶斯进行 Twitter 情绪分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25908536/

相关文章:

Java图像抓取和显示

javascript - Twitter oauth 请求 token 上的 400 错误请求

php - 为什么我不能更新我们的 Twitter 状态?

python - PySpark 窗口不适用于指定的整数范围

scala - Spark Scala数据框udf返回行

algorithm - 数量重新分配逻辑 - 具有外部数据集的 MapGroups

JAVA - 正则表达式 : Unclosed Character Class

java - 将文件txt划分为Strings Java的子列表

java - 方法重写时出现异常问题

grails - 在对Twitter/Facebook进行身份验证之后,对Spring Security进行身份验证