我计划开发一个基于 Web 的应用程序,它可以抓取维基百科以查找关系并将其存储在数据库中。通过关系,我的意思是搜索一个名字,比如“比尔盖茨”,然后找到他的页面,下载它并从页面中提取各种信息并将其存储在数据库中。信息可能包括他的出生日期、他的公司和其他一些信息。但我需要知道是否有任何方法可以从页面中找到这些独特的数据,以便我可以将它们存储在数据库中。任何特定的书籍或算法将不胜感激。还提到好的开源库会有所帮助。
谢谢
最佳答案
如果您还没有,您应该看看 DBpedia。许多类别的 wiki 文章都有您描述的各种信息的“信息框”,并且他们已经从中创建了一个数据库:
http://en.wikipedia.org/wiki/DBpedia
您还可以利用 Metaweb 的 Freebase 中的一些信息(重叠,我相信甚至可以整合来自 DBpedia 的信息。)他们有一个 API 用于查询他们的图形数据库,并且有一个名为 freebase-python 的 Python 包装器。 .
UPDATE: Freebase is no more; they were acquired by Google and eventually folded into the Google Knowledge Graph. There is an API but I don't think they have anything like the formal sync'ing Freebase had with public sources like Wikipedia. I'm personally disappointed in how this looks to have turned out. :-/
至于自然语言处理方面,如果您确实在该问题上取得了进展,您可能会将这些数据库视为您收集的任何信息的存储库。
关于python - 为文本挖掘映射关系挖掘维基百科,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6171764/