我目前正在做一个关于人名消歧的项目。该项目背后的想法是,当有多个同名的人时,它将能够识别出正确的人。我为此使用了维基百科。我想根据一些标准数据评估我的项目。我正在寻找一些测试数据。我不熟悉维基百科中的流行名称。知道吗,我在哪里可以找到这些数据?我不是在寻找大量数据。我只是在寻找大约 100-500 个示例。
谢谢
向问题添加更多信息。
我要找的是同名但实际上不同的人。例如,Michael Jordon 是一位著名的篮球运动员,还有一位统计学家。我正在寻找这样的例子。
http://en.wikipedia.org/wiki/Michael_Jordan http://en.wikipedia.org/wiki/Michael_I._Jordan
希望您现在明白了这个问题。
最佳答案
测试数据集:
- http://dbis.uni-trier.de/Mitarbeiter/reuther_files/private/reuther.shtml#DOWNLOAD
- http://nlp.uned.es/weps/weps-2/weps2-data
- http://dbs.uni-leipzig.de/en/research/projects/object_matching/fever/benchmark_datasets_for_entity_resolution
- http://semeval2.fbk.eu/semeval2.php
祝你好运!
关于java - 人名消歧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3852656/