machine-learning - 表示 H2O 输入 CSV 中的项目列表

标签 machine-learning h2o sparkling-water

如何表示 H2O 的输入数据(数据框)中的项目集/列表?

我使用的是带有 H2O Flow 的苏打水 1.6.5。 我的输入数据(CSV 文件中的列)如下所示:

age: numeric
gender: enum
hobbies: ?
sports: ?

爱好和运动是可能条目数量有限的列表/集(每个大约 20 个)。 H2O 似乎没有合适的数据类型。如何将这些导出到可由 H2O Flow 处理的 CSV 文件中?

最佳答案

如果您只是记录他们的主要爱好或主要运动,那么它将是一个枚举列,例如兴趣爱好,有20个级别。您只需将其作为字符串字段写入 csv 文件中,H2O 就会读取它。

但我认为你追求的是每个人在 20 个爱好中拥有 0+ 个选择?在这种情况下,您的 csv 文件需要有 20 列,每个爱好一列;每个都是一个 2 值枚举。这两个值是什么并不重要:Y/N、T/F、Y/空白、爱好名称/空白等。您的 csv 文件可能如下所示:

name,gender,football?,running?,data mining?,sleeping?
Tom,M,Y,,,Y
Dick,M,,,Y,
Suzy,F,,Y,Y,

汤姆喜欢足球和 sleep ,迪克只为数据挖掘而生,而苏西则喜欢运行和数据挖掘。

顺便说一句,如果使用深度学习,那么它将最终得到相同的网络配置:单个 20 级枚举输入将转换为 20 个二进制输入节点。

关于machine-learning - 表示 H2O 输入 CSV 中的项目列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38027263/

相关文章:

modeling - 在 H2O 中对新数据使用标准化时

python - 有没有更快的方法来写入或读取大约 100 万行的 pandas 数据帧

python - 为什么我的神经网络成本不断增加?

tensorflow - 用于特征缩减的 Conv 1x1 配置

apache-spark - 从大型 Spark Dataframe 到 H2O Dataframe 的 H2O 苏打水错误

java - 为什么H2O通过Spark而不是直接集成TensorFlow?

apache-spark - 发现没有 H2O 实例的执行器,杀死了云

Python,机器学习 - 对自定义验证集执行网格搜索

java - 所需端口 54321、54322 在 h2o 中的 R 上不可用错误

hadoop - H2o 不工作的执行者数量