algorithm - ALS.train() 中的秩、迭代次数和 lambda 是什么?

标签 algorithm machine-learning apache-spark-mllib data-science

我是 Spark 机器学习的新手。我正在使用ALS 算法 试验协同过滤。在这个算法中,我需要一些关于用于训练算法的rank、numIterations 和 lambda 参数的说明。而且我需要知道如何针对最小和最大的数据集调整此算法以产生改进的预测。有人可以解释一下吗?

最佳答案

来自文档:

numBlocks is the number of blocks used to parallelize computation (set to -1 to auto-configure).

rank is the number of features to use (also referred to as the number of latent factors).

iterations is the number of iterations of ALS to run. ALS typically converges to a reasonable solution in 20 iterations or less.

numBlocks 与矩阵的 block 有关。

rank 是隐藏因素,您想要使用的功能数量。阅读更多 here .

iterations 是您要执行的重复次数。该参数的名称​​不是 numIterations。

阅读更多关于 ALS 的信息 here .


I need to know how to tune the training parameters to increase the prediction with the less and high number of datas?

这总是取决于数据。使用交叉验证来选择这些。

关于algorithm - ALS.train() 中的秩、迭代次数和 lambda 是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45838557/

相关文章:

c# - 计算 2^(n) 其中 0<n<10000

algorithm - Lowe 如何计算他的 SIFT 算法的 “repeatability”?

algorithm - 找到 2 个具有最大总和的连续数组 block 。归还他们的总和

machine-learning - 我可以在拟合 CatBoostRegressor 时对评估集中的观测值进行加权吗?

machine-learning - 多元决策树学习器

algorithm - 识别节点位于另外两个节点之间

python - 物体只占图像一小部分的物体检测

hadoop - MLlib ALS无法删除检查点RDD错误的FS:预期的hdfs://[url]:file:///

使用 SparkR 运行 R 模型

python - 如何使用 spark 朴素贝叶斯分类器对 IDF 进行文本分类?