我需要创建一个推荐系统,以便能够对 >100,000 个独特的类别进行分类。
谁能告诉我随机森林分类器是否可以处理这个问题?
据我通过有关此主题的大量文章了解,人们一直说他们能够使用 RFC 分类的最大类别是 100-200。
有没有办法通过 RFC 绕过这个问题以及它将如何影响准确性?
如果没有,您建议我遵循什么机器学习算法?
提前谢谢您!
最佳答案
除了提到的问题之外,使用单个模型对 100k 类进行分类并不是一个好主意。这就像拥有一位通晓所有语言的翻译一样。最好有与语言对一样多的译者。对你来说是不是也一样呢。第一个对大群体进行分类的模型
假设生命树和能够对所有生物物种进行分类的模型。
您认为创建这种模型有意义吗?也许最好有一个按主要分支分类的模型,然后是专门用于次要分支分类的子模型,最后是定义最终物种(树的叶子)的模型。
开发工作可能会花费更长的时间,但结果会更好。你不会要求鸟类学家对鱼的种类进行分类,而是要求鱼类学家:-)
正如您所看到的,您可以使用多个随机森林分类器,但专门用于工作的一部分。我希望我的解释是清楚的,即使我的答案没有提供可用的代码。
关于python - 处理多类问题。随机森林分类器可以处理 >100,000 个类别吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/76179385/