java - 如何在 java 中使用 StringToWordVector (weka)?

标签 java classification weka arff

这是我的arff文件

@relation hamspam

@attribute text string
@attribute class {ham,spam}

@data
'good',ham
'very good',ham
'bad',spam
'very bad',spam
'very bad, very bad',spam

我想做的是在我的java程序中用weka classiffier对其进行分类,但我不知道如何使用StringToWordVector然后对其进行分类。

这是我的代码:

Classifier j48tree = new J48();    
Instances train = new Instances(new BufferedReader(new FileReader("data.arff")));

StringToWordVector filter = new StringToWordVector(); 

下一步怎么办?,我不知道该怎么办..

最佳答案

import weka.core.Instance;
//import required classes
import weka.core.Instances;
import weka.core.converters.ConverterUtils.DataSource;
import weka.core.stemmers.LovinsStemmer;
import weka.classifiers.meta.FilteredClassifier;
import weka.classifiers.trees.J48;
import weka.filters.unsupervised.attribute.Remove;
import weka.filters.unsupervised.attribute.StringToWordVector;

public class ClassifierWithFilter{

    public static void main(String args[]) throws Exception{
    //load dataset
    DataSource source = new DataSource("/Users/amaryadav/Desktop/spamham.arff");
    Instances dataset = source.getDataSet();
    //set class index to the last attribute
    dataset.setClassIndex(dataset.numAttributes()-1);

    //the base classifier
    J48 tree = new J48();

    //the filter
    StringToWordVector filter = new StringToWordVector();
    filter.setInputFormat(dataset);
    filter.setIDFTransform(true);
    filter.setUseStoplist(true);
    LovinsStemmer stemmer = new LovinsStemmer();
    filter.setStemmer(stemmer);
    filter.setLowerCaseTokens(true);

    //Create the FilteredClassifier object
    FilteredClassifier fc = new FilteredClassifier();
    //specify filter
    fc.setFilter(filter);
    //specify base classifier
    fc.setClassifier(tree);
    //Build the meta-classifier
    fc.buildClassifier(dataset);

    System.out.println(tree.graph());
    System.out.println(tree);
   }
}

此代码使用 J48 决策树构建一个使用 spamham.arff 训练的分类器。希望对您有所帮助。

关于java - 如何在 java 中使用 StringToWordVector (weka)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41877413/

相关文章:

java - 是 clone() 将真正克隆对象内部的接口(interface)变量

java - 获取JSON对象的具体对象(XML类型)

使用 Keras 进行音频分类 : presence of human voice

machine-learning - 可以将属性的预定义权重作为输入的分类算法

filter - WEKA 的重采样过滤器 - 如何解释结果

java - Weka K-means 中的理想簇数

java - Weka 过滤器导致数据丢失

java - 如何在露天查找文件夹然后子文件夹然后打印文件名

java - 如何在通用方法中添加等待点击功能?

python - 如何使用 shuffle_batch() 函数避免超出范围错误?