machine-learning - 解析文件时出现 H2o 错误

标签 machine-learning artificial-intelligence data-science h2o

我正在解析一个也包含 UUID 类型的文件。 我无法解析该文件并收到此错误。

来自/127.0.0.1:54321 的 DistributedException:“NewChunk 的类型为 Numeric,但 Vec 的类型为 UUID”,由 java.lang.AssertionError 引起:NewChunk 的类型为 Numeric,但 Vec 的类型为 UUID

有人知道这是什么意思吗?

最佳答案

我将您的 160MB 文件下载到本地进行实验,发现您的数据格式错误。

您看到上述错误只是因为数据集中的最后一列是 UUID,因此 H2O 确保将列类型设置为 UUID,但是最后一列之后的 206000 行显示数值,这会导致 H2O 在将数值设置为 UUID 时出现 panic 。

我能够在 H2O 中加载最多 206000 行,没有任何问题,但是 207000 行给了我错误,因此您可以试验哪些行格式错误。您可以运行以下命令来获取从 206000 到 207000 的所有行,并且在加载这 1000 行时您会看到同样的问题。

$ sed -n '206000,207000p' < consumer_complaints.csv > consumer_complaints_bad.csv

如果您无法在行级别修复格式错误的数据,则可以将所有列保存为字符串。这样,H2O 会将所有数据作为字符串摄取,然后您可以分析数据,正确清理数据,然后更改为正确的类型,如 enum、int 或 UUID。这不是一个好的选择,因为您的数据格式已经错误,但这样您可以将所有数据加载到 H2O 中。

关于machine-learning - 解析文件时出现 H2o 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46799076/

相关文章:

python - 我在 python 中使用 sklearn 进行文本分类的管道配置

artificial-intelligence - 神经网络架构设计

python - 如何根据 python 数据框中的行条件查找最接近的列名称?

apache-spark - 笔记本作为生产休息 API

machine-learning - 如何使用训练数据集中已定义标签的训练数据集来预测测试数据集中的标签?

python - 字符串列表转换为浮点Python

python - 使用 imgaug 增加数据集大小

python - 使用管道的 XGBRegressor

python - 如何在 GPU 支持下运行 python 代码

python - 导入错误: Using the Trainer with PyTorch requires accelerate = 0. 20.1