python - 处理多类问题。随机森林分类器可以处理 >100,000 个类别吗？

我需要创建一个推荐系统，以便能够对 >100,000 个独特的类别进行分类。

谁能告诉我随机森林分类器是否可以处理这个问题？

据我通过有关此主题的大量文章了解，人们一直说他们能够使用 RFC 分类的最大类别是 100-200。

有没有办法通过 RFC 绕过这个问题以及它将如何影响准确性？

如果没有，您建议我遵循什么机器学习算法？

提前谢谢您!

最佳答案

除了提到的问题之外，使用单个模型对 100k 类进行分类并不是一个好主意。这就像拥有一位通晓所有语言的翻译一样。最好有与语言对一样多的译者。对你来说是不是也一样呢。第一个对大群体进行分类的模型

假设生命树和能够对所有生物物种进行分类的模型。

您认为创建这种模型有意义吗？也许最好有一个按主要分支分类的模型，然后是专门用于次要分支分类的子模型，最后是定义最终物种(树的叶子)的模型。

开发工作可能会花费更长的时间，但结果会更好。你不会要求鸟类学家对鱼的种类进行分类，而是要求鱼类学家:-)

正如您所看到的，您可以使用多个随机森林分类器，但专门用于工作的一部分。我希望我的解释是清楚的，即使我的答案没有提供可用的代码。

关于python - 处理多类问题。随机森林分类器可以处理 >100,000 个类别吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/76179385/

相关文章：

python - Papermill PySpark 支持