machine-learning - 在RapidMiner中使用测试数据集

标签 machine-learning classification rapidminer

我正在尝试使用训练数据集创建模型,并希望标记测试数据集中的记录。

我在网上找到的所有教程或帮助都包含有关仅使用一个数据集(即训练数据集)进行交叉验证的信息。我找不到如何使用测试数据。我尝试将结果模型应用到测试集。但测试集似乎给出了不同的答案。预处理后的属性比训练集多。这是一个文本分类问题。

最后我得到一些像这样的输出

18.03.2013 01:47:00 Results of ResultWriter 'Write as Text (2)' [1]: 
18.03.2013 01:47:00 SimpleExampleSet:
5275 examples,
366 regular attributes,
special attributes = {
confidence_1 = #367: confidence(1) (real/single_value)
confidence_5 = #368: confidence(5) (real/single_value)
confidence_2 = #369: confidence(2) (real/single_value)
confidence_4 = #370: confidence(4) (real/single_value)
prediction = #366: prediction(label) (nominal/single_value)/values=[1, 5, 2, 4]
}

但我想要的是我的所有示例都被标记。

看来我的测试数据和训练数据有不同的编号。属性,我在日志中看到以下许多属性。

2013 年 3 月 18 日上午 1:46:41 警告:内核模型:给定的示例集不包含名称为“wireless”的常规属性。这可能会导致某些模型出现问题,具体取决于此特定属性。

但是我们如何解决文本分类中的此类问题,因为我们不知道。事先属性的和名称。

有人可以指点一下吗?

最佳答案

您可能使用 Process Documents 运算符来预处理训练集和测试集。在这里,重要的是这两个操作符的设置必须相同。要“同步”单词列表,即考虑两者中的同一组单词,您必须将用于训练的 Process Documents 运算符的单词列表 (wor) 输出连接到用于预处理的 Process Documents 运算符的相应输入端口测试集。

关于machine-learning - 在RapidMiner中使用测试数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15479011/

相关文章:

data-mining - 如何检测和删除rapidminer中的噪音?

python - 如何比较两个keras模型的相似度

python - 使用 scikit 进行逆高斯回归

algorithm - 这种学习算法的名称是什么?

apache-spark - 了解 Spark RandomForest 特征重要性结果

data-mining - RapidMiner - 将多项式属性更改为数字/整数

python - 二维输入的 Keras 模型

linux - 混淆 ns2 : agents classifiers and nodes

python - 在 keras.preprocessing.text 中使用 Tokenizer 时内存不足

machine-learning - K-NN 算法如何在 Rapidminer 中以相同距离工作?