java - 网页的二进制分类

标签 java machine-learning classification

我们有兴趣对网络上出现的网页进行二进制分类,例如电子商务与非电子商务。

目前,我们正在使用带有朴素贝叶斯算法的 Mahout 库。我们正在根据现有的分类 URL 和相同的特征集创建训练数据。

就执行此任务的准确性而言,最好的方法是什么?

我需要算法、库(可与 JAVA 一起使用)或有助于此类分类的任何更好的想法方面的帮助。

提前致谢。

最佳答案

这个问题很笼统,所以我只能添加一般信息。

提高分类质量的方法是(按重要性排序):

  • 使用词形还原和/或 Stemming只使用基本词形式
  • 实现单词过滤器以删除无用的单词
  • 为不同的语言训练单独的分类器

关于java - 网页的二进制分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8848204/

相关文章:

python - 尝试创建 GAN : InvalidArgumentError: Matrix size-incompatible

java - java中一维数据的轻量级增量分类

java - 如何从列表生成java类中的动态表

java - 不同颜色值的JTable

machine-learning - Ubuntu 上的 LMDB 错误

algorithm - 应该使用什么相似性度量来对这些序列进行分类?

machine-learning - 使用 Weka 进行句子分类

java - 使用 @OneToMany 或 @ManyToMany 定位未映射的类(Category、SubCategory、Product)

java - 以编程方式静默安装 APK

algorithm - 根据过去观察到的分组对最佳数据分组进行排名