python - 有没有既可以在单词级别也可以在句子级别工作的分类器？

在 scikit learn 或 nltk 分类器中，通常考虑术语频率或 TF-IDF。

我还想考虑术语频率、句子结构进行分类。我有 15 类问题。每个文本文件都包含带有换行符的句子。

类别城市包含这句话:

In which city Obama was born?

如果我考虑术语频率，那么可能不会考虑以下内容。因为数据集中的奥巴马或城市与查询语句不匹配

1. In which place Hally was born 2. In which city Hally was born?

有没有既考虑术语频率又考虑句子结构的分类器。因此，在训练时，它也会对具有相似句子结构的输入查询进行分类

最佳答案

除了 unigram 之外，您还可以在 ngram 上训练 tf-idf。在 Scikit Learn 中，您可以指定要考虑的 ngram_range:如果您将其设置为最多 3-gram 进行训练，您最终将存储单词组合的频率，例如“In哪个地方”，这很能说明所提出问题的类型。

关于python - 有没有既可以在单词级别也可以在句子级别工作的分类器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27267682/

相关文章：

python - 有没有更简单的方法来按类别显示我的对象？