machine-learning - Vowpal Wabbit 可以处理 ~ 90 GB 的数据吗?

标签 machine-learning scalability bigdata logistic-regression vowpalwabbit

我们从搜索引擎查询日志数据中提取了特征,特征文件(根据 Vowpal Wabbit 的输入格式)总计 90.5 GB。如此巨大的尺寸的原因是我们的特征构造中必要的冗余。 Vowpal Wabbit 声称能够在几个小时内处理 TB 级的数据。除此之外,VW 使用几乎不占用 RAM 的哈希函数。但是,当我们使用 VW 对数据运行逻辑回归时,几分钟之内,它就会耗尽所有 RAM,然后停止运行。 这是我们使用的命令-

vw -d train_output --power_t 1  --cache_file train.cache -f data.model 
--compressed --loss_function logistic --adaptive --invariant 
--l2 0.8e-8 --invert_hash train.model

train_output是我们要训练VW的输入文件,train.model是训练后得到的预期模型

欢迎任何帮助!

最佳答案

我发现--invert_hash选项的成本非常高;尝试在没有该选项的情况下运行。您还可以尝试打开 --l1 正则化选项来减少模型中的系数数量。

您的模型中有多少个特征?每行有多少个特征?

关于machine-learning - Vowpal Wabbit 可以处理 ~ 90 GB 的数据吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22743678/

相关文章:

machine-learning - 基于CSV文件的搜索引擎

web-applications - 用于大型应用程序的backbone.js

hadoop - nameservice1 和 nameservice2 之间的 distcp

hadoop - 是否可以将一个 oozie 操作的输出用于其他操作而无需从 hdfs 保存和加载?子工作流选项在这方面有用吗?

java - 在本地主机上的 oozie 中获取错误 500

python - Scikit Learn - ValueError : operands could not be broadcast together

python - 推特/通用分类训练语料库

r - 如何使用游侠按类获取特征重要性?

performance - 对于 Not Acceptable Web 应用程序响应时间是否存在某些行业标准?

php - 构建高度可扩展的 Web 服务