r - 如何在语料库中手动设置文档 ID?

标签 r tm

我正在从数据框创建 Copus。我将其作为 VectorSource 传递,因为我只想将一列用作文本源。这可以找到,但是我需要语料库中的文档 ID 来匹配数据框中的文档 ID。文档 ID 存储在原始数据框中的单独列中。

df <- as.data.frame(t(rbind(c(1,3,5,7,8,10), 
                        c("text", "lots of text", "too much text", "where will it end",         "give peas a chance","help"))))
colnames(df) <- c("ids","textColumn")
library("tm")
library("lsa")
corpus <- Corpus(VectorSource(df[["textColumn"]]))

运行此代码会创建一个语料库,但文档 ID 为 1-6。有什么方法可以创建文档 ID 为 1、3、5、7、8、10 的语料库吗?

最佳答案

我知道 @user1098798 可能已经晚了,但是有一种方法可以在创建语料库时直接指定 ID。您需要将数据加载为 DataframeSource() 并将映射添加到列:

corpus = VCorpus(DataframeSource(df), readerControl = list(reader = readTabular(mapping = list(content = "textColumn", id = "ids"))))

关于r - 如何在语料库中手动设置文档 ID?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14852357/

相关文章:

r - plotly 中的静态多边形?可能吗?

r - 确定 TRUE 和 FALSE 序列中最后 TRUE 的位置

r - 无法使用 tm for R 中的 DataframeSource 从数据帧获取元数据

R StemCompletion 中的警告和 TermDocumentMatrix 中的错误

r - 条形图中的自定义线(多个条形图)

Rcpp 将 RNG 状态设置为以前的状态

r - 将应用结果分配给数据框的多列

r - R 中的文档项矩阵 - 二元标记器不起作用

R-Project 没有适用于 'meta' 的方法应用于类 "character"的对象

r - 如何设置术语频率绑定(bind)以提取新术语文档矩阵?