我正在从数据框创建 Copus。我将其作为 VectorSource
传递,因为我只想将一列用作文本源。这可以找到,但是我需要语料库中的文档 ID 来匹配数据框中的文档 ID。文档 ID 存储在原始数据框中的单独列中。
df <- as.data.frame(t(rbind(c(1,3,5,7,8,10),
c("text", "lots of text", "too much text", "where will it end", "give peas a chance","help"))))
colnames(df) <- c("ids","textColumn")
library("tm")
library("lsa")
corpus <- Corpus(VectorSource(df[["textColumn"]]))
运行此代码会创建一个语料库,但文档 ID 为 1-6。有什么方法可以创建文档 ID 为 1、3、5、7、8、10 的语料库吗?
最佳答案
我知道 @user1098798 可能已经晚了,但是有一种方法可以在创建语料库时直接指定 ID。您需要将数据加载为 DataframeSource()
并将映射添加到列:
corpus = VCorpus(DataframeSource(df), readerControl = list(reader = readTabular(mapping = list(content = "textColumn", id = "ids"))))
关于r - 如何在语料库中手动设置文档 ID?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14852357/