我正在 apache spark 中使用 K-Means 集群做一个简单的项目,我做了一些预处理步骤,比如标记化、停用词删除器和 hashingTF。这些由 spark 自己的 Tokenization()、StopWordRemover() 和 HasingTF() 执行。但我想在应用 k 均值聚类之前执行词干提取。我在 openNLP 中尝试了一些 NLP 库。但我不知道如何在 spark DataFrame 中实现它。 谁能帮我怎么做。
最佳答案
您可以使用 shashank 在这个项目中提到的 spark 词干:https://github.com/master/spark-stemming它支持相当多的语言。查看列表:https://github.com/master/spark-stemming/tree/master/src/main/java/org/tartarus/snowball/ext
要将项目添加到您的 build.sbt,您需要添加另一个解析器:
resolvers ++= Seq("spark-stemming" at "https://dl.bintray.com/spark-packages/maven/")
并导入依赖:
"master" % "spark-stemming" % "0.1.1"
不是版本 0.1.2
关于java - 如何在 apache spark 中执行词干提取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43849776/