r - 如何在 R 中进行编码，为什么使用 ' 而不是撇号 (') 以及如何解决它

您好，我正在尝试在 R version 3.4.2 中进行文本挖掘我正在尝试使用 VCorpus 命令从本地驱动器导入 .txt 文件。但是在运行以下代码之后

cname <- file.path("C:", "texts")  
cname  
dir(cname) 
library(readr)
library(tm)
docs <- VCorpus(DirSource(cname))   
summary(docs)
inspect(docs[1])
writeLines(as.character(docs[1]))

输出: 好吧，选举结果非常好。下次我们**'** 将数量增加三倍，依此类推

' 它最初是 aporstophe(')s 现在我如何在 Rstudio 中转换或获取原始文本？

如果有人帮助我，我将不胜感激提前致谢

最佳答案

编码问题并不容易解决，因为它们取决于多种因素(文件编码、加载期间的编码设置等)。作为第一步，您可以尝试以下行，如果幸运的话它可以解决您的问题。

Encoding(your_text) <- "UTF-8"

否则，必须检查其他解决方案，例如，使用 stringi 包中的 stri_trans 或通过 gsub(falsecharacter, desiredcharacter, fixed = TRUE)(有调试表，例如，在 i18nqa.com 上)。

关于r - 如何在 R 中进行编码，为什么使用 ' 而不是撇号 (') 以及如何解决它，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47526236/

上一篇：R:跨多个向量的非共享元素(与相交相反)

下一篇：unity3d - 我想让我的 Canvas 统一进入纵向模式

相关文章：

r - 将标题和数据分解为单独的字段

r - 在 R 中选择数据表的每隔一列。两种语法有什么区别

regex - 在最后一次出现数字时拆分，取第二部分

r - 使用facet_wrap()时颜色错误

html - 将Unicode转换为UTF8或Ascii解码

oracle - 如何使sql Developer正确显示非英文字符而不是显示方 block ？

.net - 如何检测文件的使用权限 (DRM)

r - 将数据框转换为矩阵

gwt - SHA1 哈希的细微差别

java - 如何向 J2SE 1.4 API 添加对字符集 IBM437 的支持