python - 有没有既可以在单词级别也可以在句子级别工作的分类器?

标签 python machine-learning artificial-intelligence classification data-mining

在 scikit learn 或 nltk 分类器中,通常考虑术语频率或 TF-IDF。

我还想考虑术语频率、句子结构进行分类。我有 15 类问题。每个文本文件都包含带有换行符的句子。

类别城市包含这句话:

In which city Obama was born?

如果我考虑术语频率,那么可能不会考虑以下内容。因为数据集中的奥巴马或城市与查询语句不匹配

1. In which place Hally was born 2. In which city Hally was born?

有没有既考虑术语频率又考虑句子结构的分类器。因此,在训练时,它也会对具有相似句子结构的输入查询进行分类

最佳答案

除了 unigram 之外,您还可以在 ngram 上训练 tf-idf。 在 Scikit Learn 中,您可以指定要考虑的 ngram_range:如果您将其设置为最多 3-gram 进行训练,您最终将存储单词组合的频率,例如“In哪个地方”,这很能说明所提出问题的类型。

关于python - 有没有既可以在单词级别也可以在句子级别工作的分类器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27267682/

相关文章:

python - 有没有更简单的方法来按类别显示我的对象?

python - 装饰器更改返回类型时键入函数

python - Pandas:检查一个数字是否连续多次出现

python - tensorflow 推理时的批量归一化

java - 人工智能的乐园?

python - 尝试从 Pycharm 安装 sklearn 时出错 | arrayobject.h 不能是绝对的

machine-learning - TinyYolo Deeplearning4j

python - 最后分层 K 折性能独特

matlab - SVM - 适用于/不适用于大范围的数字?

javascript - 在确认对话框中单击 'OK' 后如何停止功能?