r - 如何将单词拆分为双元组，包括重复的词组？

我正在尝试将一个单词拆分为双元组。我正在使用 qlcMatrix包，但它只返回不同的二元组。例如，对于单词 "detected" ，它只返回 "te"一次。
这是我使用的命令

test_domain <- c("detected")
library("qlcMatrix", lib.loc="~/R/win-library/3.2")
bigram1 <- splitStrings(test_domain, sep = "", bigrams = TRUE, left.boundary = "", right.boundary = "")$bigrams

这是我得到的结果:

bigram1
# [1] "ec" "ed" "de" "te" "ct" "et"

最佳答案

另一种方法是使用 base R是使用 mapply和 substr :

nc <- nchar("detected")
mapply(function(x, y){substr("detected", x, y)}, x=1:(nc-1), y=2:nc)
# [1] "de" "et" "te" "ec" "ct" "te" "ed"

关于r - 如何将单词拆分为双元组，包括重复的词组？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34083585/

上一篇：emacs - 在所有打开的缓冲区中进行全文搜索的 emacs 命令是什么？像 sublimetext 的 command+shift+f？

下一篇：wpf - 有没有办法让 GridSplitter 不将元素推出窗口？

相关文章：

java - 如何从外部文件向 JComboBox 添加项目？

xml - 将 XML 解析为 R 数据帧

r - 构建R包tarball，而不必在tarball中泄露您的用户名

json格式转csv格式，使用R

r - 编写以最高相似度匹配列名的代码/函数

java - BufferedReader:将多行读入单个字符串

r - 数据框所有列中的测试条件

java - 如何自动或实用地将 java 代码块替换为另一个代码块？

r - 如何将单词列表 (chr) 与数据帧中多列中的值进行比较，并在 R 中存在匹配时输出二进制响应

python - 从列表中找到最多的 "consensus"字符串