r - 使用 R 将句子转为单词表

标签 r data-mining text-mining cpu-word sentencecase

我有一些句子,我想从句子中分离单词以获得每个行向量。但是这些单词正在重复以与我不想要的最大句子的行向量匹配。我希望无论句子有多大,每个句子的行向量都只会是单词一次。

sentence <- c("case sweden", "meeting minutes ht board meeting st march now also attachment added agenda today s board meeting", "draft meeting minutes board meeting final meeting minutes ht board meeting rd april")
sentence <- cbind(sentence)
word_table <- do.call(rbind, strsplit(as.character(sentence), " "))
test <- cbind(sentence, word_table)

这就是我现在得到的,enter image description here

这就是我想要的, enter image description here

我的意思是不重复

最佳答案

来自rawr的解决方案,

sentence <- c("case sweden", "meeting minutes ht board meeting st march now also attachment added agenda today s board meeting", "draft meeting minutes board meeting final meeting minutes ht board meeting rd april")
dd <- read.table(text = paste(sentence, collapse = '\n'), fill = TRUE)
test <- cbind(sentence, dd)

或者,

cc <- read.table(text = paste(gsub('\n', '', sentence), collapse = '\n'), fill = TRUE)
test1 <- cbind(sentence, cc)

谢谢。

关于r - 使用 R 将句子转为单词表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35855735/

相关文章:

r - 如何验证 R 中的函数是否为 PDF?

r - groupby 后在多列中应用不同的功能

python - 多元时间序列的 LSTM 输入形状?

r - 使用 R TM 包查找 2 和 3 词短语

r - 通过在批处理文件中获取 R 脚本使其可执行

algorithm - Apriori算法-频繁项集生成

statistics - 混合(二进制和数字)向量的相似度得分

r - 在R中使用tm包来阻止单词不能正常工作?

r - R 文本数据中最常见的短语

r - 测试单词是否在字符串中(grepl、fuzzyjoin?)