tm 包本身是否提供了组合文档术语矩阵的内置方法?
我在同一语料库上生成了 4 个文档术语矩阵,每个矩阵为 1、2、3、4 克。它们都非常大:200k*10k,因此将它们转换为数据帧然后绑定(bind)它们是毫无疑问的。我知道我可以编写一个程序来记录每个矩阵中的非零元素并构建一个稀疏矩阵,但这很麻烦。 tm 包提供此功能似乎很自然。因此,如果确实如此,我不想重建已经构建的东西。
如果没有,有没有比编写程序记录 dtms 非零元素的索引然后制作稀疏矩阵更方便的方法来组合 dtms?
最佳答案
您尝试过tm_combine
吗?您可以通过通用函数 c
使用它,如下所示:
require(tm)
data("acq")
data("crude")
summary(c(acq, crude))
summary(c(acq[[30]], crude[[10]]))
c(TermDocumentMatrix(acq), TermDocumentMatrix(crude))
关于r - tm 包本身是否提供了组合文档术语矩阵的内置方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19993504/