我有一个用 scala 编写的 Apache Spark 应用程序,它对收到的输入数据进行一些基本处理。输入数据是文本文件中的句子。我需要对具有购买意图的进行分类。例如,如果句子如下:“我在哪里可以买到蓝色鞋子?”,则这算作 1。
我可以使用什么分类器/机器学习程序来构建这个? scala/java 工具比较合适。我是 NLP/ML 新手。
感谢任何帮助。
最佳答案
您的应用程序本质上是一个二元分类问题。因此您需要:
- 准备标记数据作为训练数据集:每个句子如果有购买意愿则标记为 1,如果没有则标记为 0。
- 特征转换:您需要将自然语言句子转换为数字特征。请引用TF-IDF方法。
对于二元分类器,其实你有多种选择,例如朴素贝叶斯、SVM、决策树等,请查看Spark doc其支持的分类器。
关于java - Apache Spark : Detect buying intent in a sentence,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37137281/