在此 question我问如何拆分一个巨大的数据帧来创建一个语料库。多亏了答案,我才能从数据帧创建一个列表。
我的问题还是 从我创建的列表中获取语料库 为了进行一些文本挖掘并根据搜索词对数据进行聚类。
最佳答案
为了解决这个问题,我只是将 tm 包的 as.VCorpus 函数应用到我之前创建的列表中:
new_corpus <- as.VCorpus(new_list)
检查新对象是否为语料库:
class(new_corpus)
[1] "VCorpus" "Corpus"
我因此创建了一个“易变的语料库”。正如 R 文档中所写:
A volatile corpus is fully kept in memory and thus all changes only affect the corresponding R object.
关于r - 如何将列表转换为 r 中的语料库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34061912/