machine-learning - NLP:如何正确标准化性别分类的特征？

注意在开始之前，这个 F 度量与精确度和召回率无关，它的标题和定义取自此 paper 。

我有一个称为 F-measure 的功能，用于衡量给定文本中的正式性。它主要用于文本的性别分类，这也是我正在做的一个项目。

F 测量定义为:

F = 0.5 * (名词频率 + 形容词频率 + 介词频率 + 冠词频率 – 代词频率。 – 动词频率。 – 副词频率。 – 插入频率。 + 100)

频率取自给定文本(例如博客文章)。

我想标准化此功能以用于分类任务。最初，我的第一个想法是，由于值 F 受给定文本中的字数 (text_length) 约束，所以我想到首先取 F 并除以 text_length 。其次，最后，由于该度量可以取正值和负值(可以从方程中推断出)，所以我想到了平方(F/text_length)以仅获得正值。

尝试此操作时，我发现标准化值似乎不太正确，因为对于我测试该功能的所有情况，我开始获得非常小的值(低于 0.10)，我认为原因可能是因为我我对值进行平方，这实际上会使其变小，因为它是分数的平方。但是，如果我只想保证正值，则这是必需的。我不确定还需要考虑什么来改进标准化，以便在 [0,1] 内产生良好的分布，并且想知道是否涉及某种策略来正确标准化 NLP 特征。

我应该如何实现我的功能的标准化，以及我可能做错了什么？

最佳答案

如果你仔细阅读这篇文章，你会发现该度量已经标准化:

F will then vary between 0 and 100%

这样做的原因是公式中的“频率”计算如下:

The frequencies are here expressed as percentages of the number of words belonging to a particular category with respect to the total number of words in the excerpt.

即您应该根据单词总数对它们进行标准化(正如您所建议的那样)。但之后别忘了将每一项乘以 100。

关于machine-learning - NLP:如何正确标准化性别分类的特征？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28552860/

machine-learning - NLP:如何正确标准化性别分类的特征？

上一篇：machine-learning - 使用 MFCC 的简单单词检测器

下一篇：java - 对Integer对象进行加操作，从目录中读取多个文件以在Java中创建词袋