machine-learning - NLP:如何正确标准化性别分类的特征?

标签 machine-learning nlp normalization feature-extraction

注意 在开始之前,这个 F 度量与精确度和召回率无关,它的标题和定义取自此 paper

我有一个称为 F-measure 的功能,用于衡量给定文本中的正式性。它主要用于文本的性别分类,这也是我正在做的一个项目。

F 测量定义为:

F = 0.5 * (名词频率 + 形容词频率 + 介词频率 + 冠词频率 – 代词 频率。 – 动词频率。 – 副词频率。 – 插入频率。 + 100)

频率取自给定文本(例如博客文章)。

我想标准化此功能以用于分类任务。最初,我的第一个想法是,由于值 F 受给定文本中的字数 (text_length) 约束,所以我想到首先取 F 并除以 text_length 。其次,最后,由于该度量可以取正值和负值(可以从方程中推断出),所以我想到了平方(F/text_length)以仅获得正值。

尝试此操作时,我发现标准化值似乎不太正确,因为对于我测试该功能的所有情况,我开始获得非常小的值(低于 0.10),我认为原因可能是因为我我对值进行平方,这实际上会使其变小,因为它是分数的平方。但是,如果我只想保证正值,则这是必需的。我不确定还需要考虑什么来改进标准化,以便在 [0,1] 内产生良好的分布,并且想知道是否涉及某种策略来正确标准化 NLP 特征。

我应该如何实现我的功能的标准化,以及我可能做错了什么?

最佳答案

如果你仔细阅读这篇文章,你会发现该度量已经标准化:

F will then vary between 0 and 100%

这样做的原因是公式中的“频率”计算如下:

The frequencies are here expressed as percentages of the number of words belonging to a particular category with respect to the total number of words in the excerpt.

即您应该根据单词总数对它们进行标准化(正如您所建议的那样)。但之后别忘了将每一项乘以 100。

关于machine-learning - NLP:如何正确标准化性别分类的特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28552860/

相关文章:

python - 在预测决策树中的值后如何创建索引数据框

python - DecisionTreeRegressor 参数调整的分数会引发错误

nlp - 什么是自然语言处理中的chunker?

machine-learning - 如何使用 stanford nlp 查找单词的将来时态

excel - 如何在Excel中进行0到1标准化

ios - 在 iOS 中保持纵横比的同时缩放坐标

sql - 为什么这张表没有规范化?

python - PySpark 马尔可夫模型的算法/编码帮助

machine-learning - 缺乏文本特征矢量化的想法(音乐流派)

regex - 非结构化文本的Key-Value抽取方式有哪些?