我正在使用分类技术进行多文档提取文本摘要。我计算了f-measure、召回率、精确度和准确度。对于我的目的来说,评估此方法生成的摘要的理想指标是什么?
最佳答案
ROUGE 计算各种指标的召回率、精度和 F 测量:ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S。 Here是 ROUGE 的论文。
ROUGE-N是匹配n-grams的数量除以 n 元语法总数。
ROUGE-L 查看两个文本的最长公共(public)子序列,子序列可以包含间隙,因此 1,3,5
是 1,2,3,4 的子序列, 5
.
ROUGE-W 还使用最长公共(public)子序列作为分数,但为间隙较小的子序列赋予更高的权重。
ROUGE-S使用skip-bigrams,skip-bigrams是2-gram,可以包含任意2个单词,只要它们按句子顺序排列即可,即不必是连续的。
关于machine-learning - 有哪些好的且广泛使用的评估指标来测试提取文本摘要方法的准确性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28152683/