r - 计算特定单词的使用次数

我想对多个银行帐户描述执行文本挖掘。我的第一步是对描述中最常用的单词进行排名。

假设我有一个如下所示的数据框:

    a                       b
    1 1          House expenses
    2 2 Office furniture bought
    3 3 Office supplies ordered

然后我想创建一个单词使用的排名。像这样:

    Name      Times
    1. Office   2
    2. Furniture 1

等等...

对于如何快速了解描述中最常用的词语有什么想法吗？

最佳答案

解决这个问题的另一种方法是使用 tm 包。您可以创建一个语料库:

     require(tm)
     corpus <- Corpus(DataframeSource(data))
     dtm<-DocumentTermMatrix(corpus)
     dtmDataFrame <- as.data.frame(inspect(dtm))

默认情况下，它使用“weightTf”生成术语频率 tf。我将文档术语矩阵转换为数据框。现在，每个文档一行，每个术语一列，值是每个术语的术语频率，您可以以简单的方式创建排名，添加每列的所有值。

colSums(dtmDataFrame)

无论如何，你也可以在之后对其进行排序。使用 tm 的好处是，您可以轻松过滤掉单词，使用停止词等一堆东西对其进行处理，删除标点符号，词干，在需要时删除稀疏单词。

关于r - 计算特定单词的使用次数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31854843/

相关文章：

r - 在 ggplot2 中使用特定值进行分面