R H2O包导入带汉字的csv文件

标签 r h2o

我有一个 csv 格式的大型数据集来构建预测模型。由于其大小,我计划使用 R 中的 h2o 包来构建模型。但 data.frame 的多列数据中包含一些简体中文字符,h2o 接收数据有困难。

我尝试了两种不同的方法。第一种方法涉及使用 h2o.importFile() 函数直接从文件中读取数据来导入数据。然而,这种方法最终会将汉字转换成一些乱码。

我尝试的第二种方法是首先使用 readr 和基本 R read_csv/read.csv 函数将数据引入R。将数据正确加载到R后,我尝试使用 data.frame 函数将 h2o 转换为 as.h2o 帧。然而,这种方法的最终结果也导致了翻译的困惑。

为了说明这一点,我编写了以下代码作为示例:

require(h2o)
dat<-data.frame(x=rep(c("北京","上海"),50),
                y=rnorm(mean=10,sd=3,n=100))
h2o.init(nthreads=-1)
h2o.dat<-as.h2o(dat)

最佳答案

我认为这是一个错误,因为 R 的 data.frame 可以显示字符,但同时 R H2OFrame 却不能。我检查过这适用于 Python 中的 H2OFrames,所以这只是一个 R 问题。我提交了一个错误 here .

更新:此问题已修复(我已经检查过它可以在 H2O 3.32.0.1 中正常工作,但可能不久前已修复)。

关于R H2O包导入带汉字的csv文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41627290/

相关文章:

正则表达式在 Rmarkdown 中搜索数据表

r - 在 R 中将 3 维数据展平为拉长的 2-D

循环运行 H2O 的 Auto ML

python - H2O4GPU 和 Scikit-Learn 之间的分类分数不同

r - Shiny 的服务器安装 : Server not responding on port 3838

r - 在R中向后历史搜索

python - 是否有类似于运行 R-studio 服务器的类似 Python 服务器端 IDE(如 Spyder)?

python-3.x - H2O 服务器崩溃

r - 如何重现H2o GBM类概率计算

r - 根据名字对性别(以及可能的年龄范围)进行分类