python - 处理多类问题。随机森林分类器可以处理 >100,000 个类别吗?

标签 python apache-spark pyspark recommendation-engine multiclass-classification

我需要创建一个推荐系统,以便能够对 >100,000 个独特的类别进行分类。

谁能告诉我随机森林分类器是否可以处理这个问题?

据我通过有关此主题的大量文章了解,人们一直说他们能够使用 RFC 分类的最大类别是 100-200。

有没有办法通过 RFC 绕过这个问题以及它将如何影响准确性?

如果没有,您建议我遵循什么机器学习算法?

提前谢谢您!

最佳答案

除了提到的问题之外,使用单个模型对 100k 类进行分类并不是一个好主意。这就像拥有一位通晓所有语言的翻译一样。最好有与语言对一样多的译者。对你来说是不是也一样呢。第一个对大群体进行分类的模型

假设生命树和能够对所有生物物种进行分类的模型。

enter image description here

您认为创建这种模型有意义吗?也许最好有一个按主要分支分类的模型,然后是专门用于次要分支分类的子模型,最后是定义最终物种(树的叶子)的模型。

开发工作可能会花费更长的时间,但结果会更好。你不会要求鸟类学家对鱼的种类进行分类,而是要求鱼类学家:-)

正如您所看到的,您可以使用多个随机森林分类器,但专门用于工作的一部分。我希望我的解释是清楚的,即使我的答案没有提供可用的代码。

关于python - 处理多类问题。随机森林分类器可以处理 >100,000 个类别吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/76179385/

相关文章:

python - Papermill PySpark 支持

apache-spark - UDF 的 pyspark 中的返回类型无效

Python:如何从sqlite数据库查询utf-8字符串

python - 需要 XOR ascii 消息才能打印到屏幕

hadoop - 大数据信号分析 : better way to store and query signal data

python - 如何在 zeppelin 中使用 anaconda?

apache-spark - 酸洗错误-Cython 与 Pyspark : scikit-learn knn with user defined metric for large dataset

python - 使用 Python 的 Flask 和 jsonpickle 获取 JSON 中不需要的转义字符

python - 删除 groupby 中的第 n 行

python - 当 RDD 包含用户定义的类时,为什么 Apache PySpark top() 会失败?