r - 如何在 R 中进行编码,为什么使用 ' 而不是撇号 (') 以及如何解决它

标签 r encoding

您好,我正在尝试在 R version 3.4.2 中进行文本挖掘 我正在尝试使用 VCorpus 命令从本地驱动器导入 .txt 文件。 但是在运行以下代码之后

cname <- file.path("C:", "texts")  
cname  
dir(cname) 
library(readr)
library(tm)
docs <- VCorpus(DirSource(cname))   
summary(docs)
inspect(docs[1])
writeLines(as.character(docs[1]))

输出: 好吧,选举结果非常好。下次我们**'** 将数量增加三倍,依此类推

' 它最初是 aporstophe(')s 现在我如何在 Rstudio 中转换或获取原始文本?

如果有人帮助我,我将不胜感激 提前致谢

最佳答案

编码问题并不容易解决,因为它们取决于多种因素(文件编码、加载期间的编码设置等)。作为第一步,您可以尝试以下行,如果幸运的话它可以解决您的问题。

Encoding(your_text) <- "UTF-8"

否则,必须检查其他解决方案,例如,使用 stringi 包中的 stri_trans 或通过 gsub(falsecharacter, desiredcharacter, fixed = TRUE)(有调试表,例如,在 i18nqa.com 上)。

关于r - 如何在 R 中进行编码,为什么使用 ' 而不是撇号 (') 以及如何解决它,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47526236/

相关文章:

r - 将标题和数据分解为单独的字段

r - 在 R 中选择数据表的每隔一列。两种语法有什么区别

regex - 在最后一次出现数字时拆分,取第二部分

r - 使用facet_wrap()时颜色错误

html - 将Unicode转换为UTF8或Ascii解码

oracle - 如何使sql Developer正确显示非英文字符而不是显示方 block ?

.net - 如何检测文件的使用权限 (DRM)

r - 将数据框转换为矩阵

gwt - SHA1 哈希的细微差别

java - 如何向 J2SE 1.4 API 添加对字符集 IBM437 的支持