这是一个“大”问题,我不知道如何开始,所以我希望你们中的一些人能给我一个方向。如果这不是一个“好”问题,我会以道歉的方式关闭帖子。
我想浏览维基百科的数据库(假设是英文的),并进行统计。例如,我感兴趣的是维基百科在每个时间点(比方说过去 2 年)有多少活跃编辑(应该定义)。
我不知道如何建立这样一个数据库,如何访问它,如何知道它有哪些类型的数据等等。所以我的问题是:
- 为此我需要什么工具(除了基本的 R)? MySQL 在我的电脑上? RODBC 数据库连接?
- 您如何开始规划此类项目?
最佳答案
您需要从这里开始: http://en.wikipedia.org/wiki/Wikipedia:Database_download
它将带你到这里: http://download.wikimedia.org/enwiki/20100312/
您可能需要的文件是:
# 2010-03-17 04:33:50 done Log events to all pages.
* This contains the log of actions performed on pages.
* pages-logging.xml.gz 1.0 GB
http://download.wikimedia.org/enwiki/20100312/enwiki-20100312-pages-logging.xml.gz
然后您会将 xml 导入 MySQL。每天、每周、每年等生成用户直方图不需要 R。您可以使用单个 MySQL 查询来完成。像这样的东西:
select DAYOFYEAR(wiki_edit_timestamp), count(*)
from page_logs
group by DAYOFYEAR(wiki_edit_timestamp)
order by DAYOFYEAR(wiki_edit_timestamp);
等等
(我不确定他们的实际架构是什么,但应该是这样的。)
毫无疑问,您会遇到问题,但您也会学到很多东西。祝你好运!
关于sql - 如何用 R 分析维基百科文章数据库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2614949/