我想对多个银行帐户描述执行文本挖掘。我的第一步是对描述中最常用的单词进行排名。
假设我有一个如下所示的数据框:
a b
1 1 House expenses
2 2 Office furniture bought
3 3 Office supplies ordered
然后我想创建一个单词使用的排名。像这样:
Name Times
1. Office 2
2. Furniture 1
等等...
对于如何快速了解描述中最常用的词语有什么想法吗?
最佳答案
解决这个问题的另一种方法是使用 tm 包。 您可以创建一个语料库:
require(tm)
corpus <- Corpus(DataframeSource(data))
dtm<-DocumentTermMatrix(corpus)
dtmDataFrame <- as.data.frame(inspect(dtm))
默认情况下,它使用“weightTf”生成术语频率 tf。我将文档术语矩阵转换为数据框。 现在,每个文档一行,每个术语一列,值是每个术语的术语频率,您可以以简单的方式创建排名,添加每列的所有值。
colSums(dtmDataFrame)
无论如何,你也可以在之后对其进行排序。使用 tm 的好处是,您可以轻松过滤掉单词,使用停止词等一堆东西对其进行处理,删除标点符号,词干,在需要时删除稀疏单词。
关于r - 计算特定单词的使用次数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31854843/