text - ROUGE-SU 度量、含义和公式

标签 text nlp text-mining evaluation summarization

根据维基百科,ROUGE-SU 指标的定义如下:

ROUGE-SU:跳过二元语法加上基于一元语法的共现统计。

我的问题是,该指标的精确公式是什么?ROUGE-SU 指标背后的直觉是什么?

提前谢谢您。

最佳答案

S 表示跳过二元组。它意味着匹配 2 个不连续的单词(即之间有其他单词),从而允许重新措辞和句子重组。由于 ROUGE 分数应该评估自动摘要,因此这是一个好点。

U 表示一元语法,即 1-gram,= 计算常见单词

因此SU意味着我们同时计算skip-bigramunigram。关键是要制作一个跳过二元组,因为我们可能不想仅仅因为一个句子在具有共同的一元组时不共享跳过二元组而给它分配 0 分。

你明白了吗?

无论如何,请注意,ROUGE 分数本身并不完美。您总是应该获得几个显示不同特征的值。

希望这有帮助
pltrdy
作为旁注,我开发了一个脚本来计算 2 个文件之间的 ROUGE 分数。在这里找到它:https://github.com/pltrdy/files2rouge

关于text - ROUGE-SU 度量、含义和公式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41808030/

相关文章:

android - 微调器中的文本更改高度和宽度选择微调器的另一个项目

machine-learning - 如何训练 NER 识别单词不是实体?

python-3.x - 使用 pip 在 Windows 10 中安装 spaCy 时出现问题

css - 最大文本行数 + 省略号

python - 输出到文本文件

python - 如何停用 sklearn TfidfVectorizer 的默认停用词功能

python - 如何在词袋上进行 K-NN

python - 将文本语料库转换为具有vocabulary_id 和相应 tfidf 分数的文本文档

r - 使用 R 进行字符串中的文本挖掘

java - 在 JButton 32x32 上设置 1 个或 2 个字符的文本