您好,我正在尝试在 R version 3.4.2 中进行文本挖掘
我正在尝试使用 VCorpus
命令从本地驱动器导入 .txt 文件。
但是在运行以下代码之后
cname <- file.path("C:", "texts")
cname
dir(cname)
library(readr)
library(tm)
docs <- VCorpus(DirSource(cname))
summary(docs)
inspect(docs[1])
writeLines(as.character(docs[1]))
输出: 好吧,选举结果非常好。下次我们**'** 将数量增加三倍,依此类推
' 它最初是 aporstophe(')s 现在我如何在 Rstudio 中转换或获取原始文本?
如果有人帮助我,我将不胜感激 提前致谢
最佳答案
编码问题并不容易解决,因为它们取决于多种因素(文件编码、加载期间的编码设置等)。作为第一步,您可以尝试以下行,如果幸运的话它可以解决您的问题。
Encoding(your_text) <- "UTF-8"
否则,必须检查其他解决方案,例如,使用 stringi
包中的 stri_trans
或通过 gsub(falsecharacter, desiredcharacter, fixed = TRUE)
(有调试表,例如,在 i18nqa.com 上)。
关于r - 如何在 R 中进行编码,为什么使用 ' 而不是撇号 (') 以及如何解决它,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47526236/