python - 将 TFIDF 特征向量从 sklearn 传递到 SGDClassifier

标签 python scikit-learn tf-idf

import numpy as np
from sklearn import linear_model
X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
Y = np.array(['C++', 'C#', 'java','python'])
clf = linear_model.SGDClassifier()
clf.fit(X, Y)
print (clf.predict([[1.7, 0.7]]))
#python

我试图通过给出一个测试用例并在训练数据X上对其进行训练来预测数组 Y 的值,现在我的问题是,我想更改训练集<从strong>X到TF-IDF特征向量,那这怎么可能呢? 隐隐约约地,我想做这样的事情

import numpy as np
from sklearn import linear_model
X = np.array_str([['abcd', 'efgh'], ['qwert', 'yuiop'], ['xyz','abc'],['opi', 'iop']])
Y = np.array(['C++', 'C#', 'java','python'])
clf = linear_model.SGDClassifier()
clf.fit(X, Y)

最佳答案

您应该查看 TfidfVectorizer在 scikit-learn 中。 我假设 X 是要分类的文本列表。

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(X)

然后使用 X_train 作为新的 X 来训练分类器。

clf = linear_model.SGDClassifier()
clf.fit(X_train, Y)

关于python - 将 TFIDF 特征向量从 sklearn 传递到 SGDClassifier,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32457795/

相关文章:

python - 解决 scikit learn 中随机森林分类器的问题

python - Inverse_transform方法(LabelEncoder)

python - 如何使用 sklearn 的 SGDClassifier 返回前 N 个预测的准确率?

python - 将 dask delayed 与函数返回列表一起使用

python - 训练 fc 层后微调 PyTorch 模型

python - sklearn RandomForestRegressor 显示的树值中的差异

python-3.x - 使用相关和随机语料库计算 TF-IDF 单词得分

python - scikit-learn - HashingVectorizer 上的 Tfidf

python - 如何打印内部列表包含字符串和字符串列表的列表列表?

python - Scrapy:从 HTML 脚本中提取 JSON