python - 为文本挖掘映射关系挖掘维基百科

标签 python pattern-matching data-mining wikipedia text-mining

我计划开发一个基于 Web 的应用程序,它可以抓取维基百科以查找关系并将其存储在数据库中。通过关系,我的意思是搜索一个名字,比如“比尔盖茨”,然后找到他的页面,下载它并从页面中提取各种信息并将其存储在数据库中。信息可能包括他的出生日期、他的公司和其他一些信息。但我需要知道是否有任何方法可以从页面中找到这些独特的数据,以便我可以将它们存储在数据库中。任何特定的书籍或算法将不胜感激。还提到好的开源库会有所帮助。

谢谢

最佳答案

如果您还没有,您应该看看 DBpedia。许多类别的 wiki 文章都有您描述的各种信息的“信息框”,并且他们已经从中创建了一个数据库:

http://en.wikipedia.org/wiki/DBpedia

您还可以利用 Metaweb 的 Freebase 中的一些信息(重叠,我相信甚至可以整合来自 DBpedia 的信息。)他们有一个 API 用于查询他们的图形数据库,并且有一个名为 freebase-python 的 Python 包装器。 .

UPDATE: Freebase is no more; they were acquired by Google and eventually folded into the Google Knowledge Graph. There is an API but I don't think they have anything like the formal sync'ing Freebase had with public sources like Wikipedia. I'm personally disappointed in how this looks to have turned out. :-/

至于自然语言处理方面,如果您确实在该问题上取得了进展,您可能会将这些数据库视为您收集的任何信息的存储库。

关于python - 为文本挖掘映射关系挖掘维基百科,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6171764/

相关文章:

machine-learning - 机器学习中如何处理具有其他属性的时间序列数据?

python - 随机缩进错误?

python sprereboot命令不起作用

Python csv : Split column to columns and then to rows by delimiter

haskell - GHC 在编译模式时做了哪些迭代?

data-mining - 推荐系统的数据集

c++ - 在 C++ 中将整数数组转换为位集表示的最佳方法?

python - python hdf5解析函数多线程时速度没有提升

java - 如何在 java 中为以下正则表达式创建模式字符串?

Java 提取子字符串