python - 为文本挖掘映射关系挖掘维基百科

我计划开发一个基于 Web 的应用程序，它可以抓取维基百科以查找关系并将其存储在数据库中。通过关系，我的意思是搜索一个名字，比如“比尔盖茨”，然后找到他的页面，下载它并从页面中提取各种信息并将其存储在数据库中。信息可能包括他的出生日期、他的公司和其他一些信息。但我需要知道是否有任何方法可以从页面中找到这些独特的数据，以便我可以将它们存储在数据库中。任何特定的书籍或算法将不胜感激。还提到好的开源库会有所帮助。

谢谢

最佳答案

如果您还没有，您应该看看 DBpedia。许多类别的 wiki 文章都有您描述的各种信息的“信息框”，并且他们已经从中创建了一个数据库:

http://en.wikipedia.org/wiki/DBpedia

您还可以利用 Metaweb 的 Freebase 中的一些信息(重叠，我相信甚至可以整合来自 DBpedia 的信息。)他们有一个 API 用于查询他们的图形数据库，并且有一个名为 freebase-python 的 Python 包装器。 .

UPDATE: Freebase is no more; they were acquired by Google and eventually folded into the Google Knowledge Graph. There is an API but I don't think they have anything like the formal sync'ing Freebase had with public sources like Wikipedia. I'm personally disappointed in how this looks to have turned out. :-/

至于自然语言处理方面，如果您确实在该问题上取得了进展，您可能会将这些数据库视为您收集的任何信息的存储库。

关于python - 为文本挖掘映射关系挖掘维基百科，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6171764/

python - 为文本挖掘映射关系挖掘维基百科

上一篇：python - Google AppEngine 上的静态根页面

下一篇：python - 将 Django 模型导入 python cli 脚本