python - 如何使用经过训练的分类器预测新数据集

标签 python tensorflow nlp

我使用高斯分类器训练了一个模型,我的模型的准确度为 63%。现在我需要使用这个模型来预测不同文件中的数据。我怎样才能做到这一点?

这是我完成的代码。

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
dataset = pd.read_csv('fno.tsv', delimiter = '\t', quoting = 3)
import re
from sklearn.externals import joblib
import phrasemachine as pm
import nltk 
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer 
from nltk.util import ngrams
corpus = []

for j in range(0, 400):
    review = re.sub('[^a-zA-Z]', ' ', dataset['Final Narrative'][j])
    review = review.lower()
    review = review.split()
    ps = PorterStemmer()
    review = [ps.stem(word) for word in review if not word in set(stopwords.words('english'))] 
    review = ' '.join(review)
    corpus.append(review)
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer() 
X = cv.fit_transform(corpus).toarray()
y = dataset.iloc[:, 17].values
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.05, random_state = 0)
from sklearn.naive_bayes import GaussianNB
from sklearn import metrics
model = GaussianNB()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

from sklearn.feature_extraction.text import TfidfVectorizer
tf=TfidfVectorizer()
text_tf= tf.fit_transform(dataset['Final Narrative'])

from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    text_tf, dataset['Source of Hazard'], test_size=0.3, random_state=123)
#Accuracy Check
from sklearn.naive_bayes import GaussianNB
from sklearn import metrics

clf = GaussianNB().fit(X_train.toarray(), y_train)
predicted= clf.predict(X_test.toarray())
print("MultinomialNB Accuracy:",metrics.accuracy_score(y_test, predicted))

现在我有另一个名为 data 的文件,其中仅包含要预测的数据 (X),而没有 Y。如何使用上述分类器来预测这个新数据集?

最佳答案

model.predict(),该函数将为分类算法提供预测结果。

新文件的预测如下所示:

model.predict(X_data)

输出分类结果。

关于python - 如何使用经过训练的分类器预测新数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59705333/

相关文章:

python - TensorFlow 2.3 和 libcublas.so.10

python - 没有模型的 TensorFlow 恢复/部署网络?

nlp - 如何计算句子的极性??? (在情绪分析中)

Python 太慢,无法在 for 循环中的字符串中查找文本

python - 如何比较两个列表的无序列表及其内部的无序列表?

python - 什么时候应该使用 Map 而不是 For 循环?

python - 如何为输出文本文件添加时间戳

python-3.x - "The CPU implementation of FusedBatchNorm only supports NHWC tensor format for now."

nlp - 如何将地名词典或词典表示为 crf++ 中的特征?

python - 什么时候在 python 中使用 class 和 dict?