r - 计算特定单词的使用次数

标签 r text-mining

我想对多个银行帐户描述执行文本挖掘。我的第一步是对描述中最常用的单词进行排名。

假设我有一个如下所示的数据框:

    a                       b
    1 1          House expenses
    2 2 Office furniture bought
    3 3 Office supplies ordered

然后我想创建一个单词使用的排名。像这样:

    Name      Times
    1. Office   2
    2. Furniture 1

等等...

对于如何快速了解描述中最常用的词语有什么想法吗?

最佳答案

解决这个问题的另一种方法是使用 tm 包。 您可以创建一个语料库:

     require(tm)
     corpus <- Corpus(DataframeSource(data))
     dtm<-DocumentTermMatrix(corpus)
     dtmDataFrame <- as.data.frame(inspect(dtm))

默认情况下,它使用“weightTf”生成术语频率 tf。我将文档术语矩阵转换为数据框。 现在,每个文档一行,每个术语一列,值是每个术语的术语频率,您可以以简单的方式创建排名,添加每列的所有值。

colSums(dtmDataFrame)

无论如何,你也可以在之后对其进行排序。使用 tm 的好处是,您可以轻松过滤掉单词,使用停止词等一堆东西对其进行处理,删除标点符号,词干,在需要时删除稀疏单词。

关于r - 计算特定单词的使用次数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31854843/

相关文章:

r - 在 ggplot2 中使用特定值进行分面

r - 使用数据表进行双周分箱

r - enc2utf8(x) : argumemt is not a character vector 中的错误

python - 如何查找 SkLearn 模型的 LSA 和 LDA 的一致性分数?

r - 如何保存未被 rm(list=ls()) 删除的变量

r - 计算因子的正确方法是使用 dplyr

r - 获取特定日期的 CRAN R 包版本

r - 使用 R 中的 tm 包为多个语料库制作前 N 个频繁项的数据框

python - 在Python中使用短语和词干进行快速词典查找

machine-learning - 可以自动找到停用词吗?