java - Apache Spark : Detect buying intent in a sentence

标签 java apache-spark nlp

我有一个用 scala 编写的 Apache Spark 应用程序,它对收到的输入数据进行一些基本处理。输入数据是文本文件中的句子。我需要对具有购买意图的进行分类。例如,如果句子如下:“我在哪里可以买到蓝色鞋子?”,则这算作 1。

我可以使用什么分类器/机器学习程序来构建这个? scala/java 工具比较合适。我是 NLP/ML 新手。

感谢任何帮助。

最佳答案

您的应用程序本质上是一个二元分类问题。因此您需要:

  1. 准备标记数据作为训练数据集:每个句子如果有购买意愿则标记为 1,如果没有则标记为 0。
  2. 特征转换:您需要将自然语言句子转换为数字特征。请引用TF-IDF方法。

对于二元分类器,其实你有多种选择,例如朴素贝叶斯、SVM、决策树等,请查看Spark doc其支持的分类器。

关于java - Apache Spark : Detect buying intent in a sentence,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37137281/

相关文章:

scala - 如何并行化 Spark scala 计算?

apache-spark - Kryo序列化器如何在Spark中分配缓冲区

wordnet - WordNet 是如何诞生的

json - 在 spark 中处理 JSON - 不同文件中的不同模式

python - 传递给 Gensim 语言模型的句子迭代器

python - 我的 python 代码中没有任何内容被附加(写入)到我的 txt 文件中

java - 在 Java 中使用 Azure 服务总线

java - 如何从输入文本中删除特殊字符

java - 根据百分比选择一个值

java - 使用冒泡排序对对象进行排序和比较