python-3.x - 如果onehotencoder应用于训练数据,如何通过测试数据来获得模型预测

标签 python-3.x machine-learning scikit-learn one-hot-encoding

我正在使用 Sklearn.preprocessing 来预处理 (onehotencoder) 分类数据。

onehotencoder = OneHotEncoder()
pre_loc_data1 = onehotencoder.fit_transform(pre_loc_data1.astype(str)).toarray()
print(pre_loc_data1)

X_train, X_test, y_train, y_test = train_test_split(pre_loc_data1, pre_loc_target, test_size=0.2)

这里的 X-train 现在是编码数据。 如果我将 y_train 数据提供给模型进行预测,它就可以正常工作。 因为它也是编码数据。 但我想使用单个记录作为模型的输入来预测,而不需要像下面这样的编码

(clf.predict(['Hyderabad / Secunderabad','0 Year(s) 8 Month(s)','android','java']))

如何将此类数据作为模型的输入进行测试。

提前致谢!

最佳答案

您需要将 onehotencoder 应用于输入(假设 clf 是您训练过的模型):

clf.predict(onehotencoder.transform([['Hyderabad / Secunderabad','0 Year(s) 8 Month(s)','android','java']]))

关于python-3.x - 如果onehotencoder应用于训练数据,如何通过测试数据来获得模型预测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55293435/

相关文章:

java - 是否可以编写Java客户端来访问Tensorflow Server?

python - 我想从 TFRecord 读取数据

python - SVM sklearn verbose 仅​​显示点

python - python中高效的在线线性回归算法

python-3.x - TPU分类器InvalidArgumentError : No OpKernel was registered to support Op 'CrossReplicaSum' with these attrs

python - python 打开文本文件读取并求平均值

pandas - 如果我的测试数据在某一列中缺少值,如何解决一种热编码问题?

python - sklearn : Would like to extend CountVectorizer to fuzzy match against vocabulary

python - 从字符串中删除由字符分隔的特殊符号

python - 如何对返回相同类型的类实例的两个类实例(以 float 作为子类)执行算术?例如速度(2) + 速度(2)