r - 在 R 中使用西类牙语文本创建语料库

尝试对西类牙语文本进行一些文本挖掘和词云可视化。我实际上有 9 个不同的 .txt 文件，但只会发布一个用于复制。

"Nos los representantes del pueblo de la Nación ARGENTINA, reunidos en Congreso General Constituyente por voluntad y elección de las provincias que la componen, en cumplimiento de pactos preexistentes, con el objeto de constituir la unión nacional, afianzar la justicia, consolidar la paz interior, proveer la defensa común, promover el bienestar general, y asegurar los beneficios de la libertad, para nosotros, para nuestra posteridad, y para todos los hombres del mundo que quieran habitar en el suelo argentino: invocando la protección de Dios, fuente de toda razón y justicia: ordenamos, decretamos y establecemos esta Constitución, para la Nación ARGENTINA."

文件保存为 .txt 文件。下面是我用正确的编码生成术语文档矩阵的天真的尝试。当我检查它时，我没有得到原始文件中的文本(例如，“constitución”变成“constitucif3n”)。我是文本挖掘的新手，并且知道该解决方案可能涉及各种相互依赖的调整，我想我应该在这里问而不是搜索 4 个小时。提前致谢。

#Generate Term-Document-Matrix

#Convert Text to Corpus and Clean
cleanCorpus <- function(corpus) {
  corpus.tmp <- tm_map(corpus, removePunctuation)
  corpus.tmp <- tm_map(corpus.tmp, stripWhitespace)
  corpus.tmp <- tm_map(corpus.tmp, tolower)
  corpus.tmp <- tm_map(corpus.tmp, removeWords, stopwords("spanish"))
  return(corpus.tmp)
}

generateTDM <- function(path) {
  cor.tmp <- Corpus(DirSource(directory=path, encoding="ISO8859-1"))
  cor.cl <- cleanCorpus(cor.tmp)
  tdm.tmp <- TermDocumentMatrix(cor.cl)
  tdm.s <- removeSparseTerms(tdm.tmp, 0.7)
}

tdm <- generateTDM(pathname)
tdm.m <- as.matrix(tdm)

最佳答案

解答:确保原始文本文件是UTF-8编码的。为此，我必须在 Mac 上的 TextEdit 中更改我的保存首选项。这使得一切顺利进行。

关于r - 在 R 中使用西类牙语文本创建语料库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23483826/

r - 在 R 中使用西类牙语文本创建语料库

上一篇：常规 : How to read xml tag names having full colon

下一篇：Android:constraintLayout 在 CardView 内不起作用