我们有兴趣对网络上出现的网页进行二进制分类,例如电子商务与非电子商务。
目前,我们正在使用带有朴素贝叶斯算法的 Mahout 库。我们正在根据现有的分类 URL 和相同的特征集创建训练数据。
就执行此任务的准确性而言,最好的方法是什么?
我需要算法、库(可与 JAVA 一起使用)或有助于此类分类的任何更好的想法方面的帮助。
提前致谢。
最佳答案
关于java - 网页的二进制分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8848204/