r - 用于准确预测的数据集中的最小行数

标签 r parallel-processing machine-learning sample

我正在 16 核机器上运行 glmnet，支持套索回归。我有一些稀疏矩阵格式的 800K 行和大约 2K 列，应该对其进行训练以预测第一列中的概率。

这个过程变得非常缓慢。我想知道有什么办法可以加快速度要么通过在 nfold 上并行化，要么我可以选择更少的行数而不影响准确性。是否可以？如果可以的话，怎么办比较好？

最佳答案

可以通过使用并行化来加快该过程，如上面的评论链接中所述 executing glmnet in parallel in R一旦指定了核心数量，就可以通过在 cv.glmnet() 函数中设置 parallel=TRUE 选项来完成:

library(doParallel)
registerDoParallel(5)
m <- cv.glmnet(x, y, family="binomial", alpha=0.7, type.measure="auc",
           grouped=FALSE, standardize=FALSE, parallel=TRUE)

减少行数更多的是根据测试集上的 AUC 值进行判断。如果它高于阈值，并且减少行数不会影响这一点，那么这当然是一个好主意。

关于r - 用于准确预测的数据集中的最小行数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25645316/

上一篇：python - Matlab 和 Python 中的 LASSO 回归结果不同

下一篇：machine-learning - scikit learn 对不相关(域外)数据进行分类

相关文章：

r - 消除数据表中选定的行

RMarkdown PDF "LaTeX3 error: Erroneous variable"

r - 在循环中将变量传递给 dplyr::count

haskell - 如何用 Haskell 向量编写并行代码？

machine-learning - Weka 中分类前的聚类

machine-learning - Rasa NLU Trainer-如何修复“"Can' t 查找训练文件”错误？

python - 负对数似然的减少参数

r - 在 Shiny 应用中跟踪用户事件

python - 如何使用 PyTorch 并行化 CNN 对图像的评估

math - N 体问题 : Efficient parallelization of the double for loop