我有一个 csv
格式的大型数据集来构建预测模型。由于其大小,我计划使用 R 中的 h2o
包来构建模型。但 data.frame
的多列数据中包含一些简体中文字符,h2o
接收数据有困难。
我尝试了两种不同的方法。第一种方法涉及使用 h2o.importFile()
函数直接从文件中读取数据来导入数据。然而,这种方法最终会将汉字转换成一些乱码。
我尝试的第二种方法是首先使用 readr
和基本 R read_csv
/read.csv
函数将数据引入R。将数据正确加载到R后,我尝试使用 data.frame
函数将 h2o
转换为 as.h2o
帧。然而,这种方法的最终结果也导致了翻译的困惑。
为了说明这一点,我编写了以下代码作为示例:
require(h2o)
dat<-data.frame(x=rep(c("北京","上海"),50),
y=rnorm(mean=10,sd=3,n=100))
h2o.init(nthreads=-1)
h2o.dat<-as.h2o(dat)
最佳答案
我认为这是一个错误,因为 R 的 data.frame 可以显示字符,但同时 R H2OFrame 却不能。我检查过这适用于 Python 中的 H2OFrames,所以这只是一个 R 问题。我提交了一个错误 here .
更新:此问题已修复(我已经检查过它可以在 H2O 3.32.0.1 中正常工作,但可能不久前已修复)。
关于R H2O包导入带汉字的csv文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41627290/