r - 在 R 中使用西类牙语文本创建语料库

标签 r encoding text-mining word-cloud

尝试对西类牙语文本进行一些文本挖掘和词云可视化。我实际上有 9 个不同的 .txt 文件,但只会发布一个用于复制。

"Nos los representantes del pueblo de la Nación ARGENTINA, reunidos en Congreso General Constituyente por voluntad y elección de las provincias que la componen, en cumplimiento de pactos preexistentes, con el objeto de constituir la unión nacional, afianzar la justicia, consolidar la paz interior, proveer la defensa común, promover el bienestar general, y asegurar los beneficios de la libertad, para nosotros, para nuestra posteridad, y para todos los hombres del mundo que quieran habitar en el suelo argentino: invocando la protección de Dios, fuente de toda razón y justicia: ordenamos, decretamos y establecemos esta Constitución, para la Nación ARGENTINA."

文件保存为 .txt 文件。下面是我用正确的编码生成术语文档矩阵的天真的尝试。当我检查它时,我没有得到原始文件中的文本(例如,“constitución”变成“constitucif3n”)。我是文本挖掘的新手,并且知道该解决方案可能涉及各种相互依赖的调整,我想我应该在这里问而不是搜索 4 个小时。提前致谢。

#Generate Term-Document-Matrix

#Convert Text to Corpus and Clean
cleanCorpus <- function(corpus) {
  corpus.tmp <- tm_map(corpus, removePunctuation)
  corpus.tmp <- tm_map(corpus.tmp, stripWhitespace)
  corpus.tmp <- tm_map(corpus.tmp, tolower)
  corpus.tmp <- tm_map(corpus.tmp, removeWords, stopwords("spanish"))
  return(corpus.tmp)
}

generateTDM <- function(path) {
  cor.tmp <- Corpus(DirSource(directory=path, encoding="ISO8859-1"))
  cor.cl <- cleanCorpus(cor.tmp)
  tdm.tmp <- TermDocumentMatrix(cor.cl)
  tdm.s <- removeSparseTerms(tdm.tmp, 0.7)
}

tdm <- generateTDM(pathname)
tdm.m <- as.matrix(tdm)

最佳答案

解答:确保原始文本文件是UTF-8编码的。为此,我必须在 Mac 上的 TextEdit 中更改我的保存首选项。这使得一切顺利进行。

关于r - 在 R 中使用西类牙语文本创建语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23483826/

相关文章:

python 递归实现词组搜索。如何进行?

r - 从Word文档中提取半结构化文本

r - R 中文本挖掘的相异函数

R:基于 NA 位置合并来自同一 data.frame 的列

r - 在YAML中使用R代码或Windows用户变量("%userprofile%")?

string - 收缩字符串编码算法

ios - iOS Web 服务接收空数据

java - 设置文件名编码

R:dplyr - 按位置而不是名称重命名列名

r - 如何找到 R 中预测变量值缺失对应的类