python - 为标签预测项目提取特征

标签 python algorithm machine-learning svm text-mining

我正在考虑做一个项目，用于在 python 中提取堆栈交换问题的关键字。我有来自 kaggle.com 的输入数据，其中包含用于训练的 ID、标题、正文和标签。我正在考虑实现一些机器学习算法，如支持向量机、神经网络等来训练分类器。问题是对于这些算法的输入，我们需要特征。而且我不知道如何从这些算法的输入中提取特征，因为我以前从未从段落中提取过特征。任何帮助将不胜感激。

最佳答案

特征选择至关重要，它提供了特征与您的问题的相关性信息。Sergios Theodoridis 和 Konstantinos Koutroumbas 的《模式识别》一书中给出了很好的理论解释。我找到了这个简单的代码示例

# Feature Importance
from sklearn import datasets
from sklearn import metrics
from sklearn.ensemble import ExtraTreesClassifier
# load the iris datasets
dataset = datasets.load_iris()
# fit an Extra Trees model to the data
model = ExtraTreesClassifier()
model.fit(dataset.data, dataset.target)
# display the relative importance of each attribute
print(model.feature_importances_)

结果

0.1087327   0.06409384  0.32304493  0.50412853

关于python - 为标签预测项目提取特征，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35482079/

上一篇：ruby - Eratosthenes 变体筛法

下一篇：Project Euler Q20 的 Java 算法

python - pysftp -- paramiko SSHException，来自服务器的错误主机 key

algorithm - HackerRank 最大不相交子树积

algorithm - 如何在内存方法中打印值-动态编程

c# - 在没有 PCA 的情况下在多类 svm 中找到正确的特征

python - 在另一个区域调用 Lambda 并在调用的区域进行更改

python - 在 Plotly 中的图形顶部添加饼图

arrays - 试图找到算法或数学？

java - 使用神经网络进行文本分类

machine-learning - 不带评级的建议 (Azure ML)