r - tm 包本身是否提供了组合文档术语矩阵的内置方法?

标签 r text-mining tm

tm 包本身是否提供了组合文档术语矩阵的内置方法?

我在同一语料库上生成了 4 个文档术语矩阵,每个矩阵为 1、2、3、4 克。它们都非常大:200k*10k,因此将它们转换为数据帧然后绑定(bind)它们是毫无疑问的。我知道我可以编写一个程序来记录每个矩阵中的非零元素并构建一个稀疏矩阵,但这很麻烦。 tm 包提供此功能似乎很自然。因此,如果确实如此,我不想重建已经构建的东西。

如果没有,有没有比编写程序记录 d​​tms 非零元素的索引然后制作稀疏矩阵更方便的方法来组合 dtms?

最佳答案

您尝试过tm_combine吗?您可以通过通用函数 c 使用它,如下所示:

require(tm)
data("acq")
data("crude")
summary(c(acq, crude))
summary(c(acq[[30]], crude[[10]]))
c(TermDocumentMatrix(acq), TermDocumentMatrix(crude))

关于r - tm 包本身是否提供了组合文档术语矩阵的内置方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19993504/

相关文章:

r - 从 R 中的数据框中识别无意义或乱码的文本。有没有办法将字符串/单词部分匹配到字典?

r - 如何创建一个术语矩阵来对与每个文档关联的数值求和?

r - 使用 R 对单词中的相同模式进行分类

r - Matching包中生成的权重矩阵是什么?

将 'raw' xlsx 文件从 httr 响应读取到数据帧中

java - 在 JAVA 中使用哪个 NLP 工具包?

r - 计算r中的单词共现矩阵

r - 你如何使用 R Shiny 从数据库中填充下拉列表?

r - 使用 geom_segment 指示 geom_errorbar 超出 log10 比例限制

r - 在R中的Wordcloud中将所有单词大写