python - 将数据加载到 Catboost Pool 对象中

我正在训练 Catboost 模型并使用 Pool 对象，如下所示:

pool = Pool(data=x_train, label=y_train, cat_features=cat_cols)
eval_set = Pool(data=x_validation, label=y_validation['Label'], cat_features=cat_cols)

model.fit(pool, early_stopping_rounds=EARLY_STOPPING_ROUNDS, eval_set=eval_set)

对于x_train、y_train、x_validation和y_validation，它们来自Pandas DataFrame type (数据集保存为 Parquet 文件，我使用 PyArrow 将它们读入数据帧)。 model 是一个 Catboost 分类器/回归器。

我正在尝试针对大型数据集进行优化，我的问题是:

当将数据集读取到 Pandas DataFrame(使用 PyArrow)，然后创建 Pool 对象时，我实际上是否将用于存储数据集的内存量增加了一倍？据我了解，他们复制数据来构建池，并且这不是引用。
是否有更有效的方法来创建池？例如直接从 libsvm 文件加载它？就像这里提到的https://catboost.ai/docs/concepts/python-usages-examples.html#load-the-dataset-from-a-file
有什么方法可以批量将数据加载到Pool中吗？并且一开始就不将所有内容加载到内存中？

最佳答案

是的，不幸的是，所使用的 RAM 量增加了一倍，因此最好先将数据转换为 Catboost 可以理解的文件格式，然后从文件创建池。为什么 Catboost 使用额外的 RAM - 来量化数据集。您可以从大 Pandas 数据帧(必须加载到 RAM 中)准备一个池，删除 df，量化池，如果您认为以后必须重复训练，则保存它。请注意，您只能保存量化池。如果这样做，请始终说量化边界，否则，您将无法创建辅助数据集(如验证数据集)，因为它们需要相同的量化。像 csv/tsv Catboost 这样的简单文件格式可以直接从磁盘读取(并量化，它们在直到模块中有一个辅助函数)。
是的，正如您引用的那样。
您可以使用 batch training 手动加载批处理或者选择 training continuation 。两者都可以达到你的目的，我已经尝试过了。训练继续看起来更简单(因为您只需提供 init_model)，但您将无法在 GPU 上进行训练(至少目前如此)。另外，您将仅限于对称树，并且对超参数还有更多限制。通过批量训练，您可以使用 GPU。

关于python - 将数据加载到 Catboost Pool 对象中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67981836/

python - 将数据加载到 Catboost Pool 对象中

上一篇：php - AES-256-GCM 在 M1 Macbook 上的 PHP ext-sodium 中不可用

下一篇：css - 如何在CSS中使用十六进制值赋予颜色不透明度？