在 scikit learn 或 nltk 分类器中,通常考虑术语频率或 TF-IDF。
我还想考虑术语频率、句子结构进行分类。我有 15 类问题。每个文本文件都包含带有换行符的句子。
类别城市包含这句话:
In which city Obama was born?
如果我考虑术语频率,那么可能不会考虑以下内容。因为数据集中的奥巴马或城市与查询语句不匹配
1. In which place Hally was born 2. In which city Hally was born?
有没有既考虑术语频率又考虑句子结构的分类器。因此,在训练时,它也会对具有相似句子结构的输入查询进行分类
最佳答案
除了 unigram 之外,您还可以在 ngram 上训练 tf-idf。
在 Scikit Learn 中,您可以指定要考虑的 ngram_range
:如果您将其设置为最多 3-gram 进行训练,您最终将存储单词组合的频率,例如“In哪个地方”,这很能说明所提出问题的类型。
关于python - 有没有既可以在单词级别也可以在句子级别工作的分类器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27267682/