sql - 如何用 R 分析维基百科文章数据库?

标签 sql mysql r database wikipedia

这是一个“大”问题,我不知道如何开始,所以我希望你们中的一些人能给我一个方向。如果这不是一个“好”问题,我会以道歉的方式关闭帖子。

我想浏览维基百科的数据库(假设是英文的),并进行统计。例如,我感兴趣的是维基百科在每个时间点(比方说过去 2 年)有多少活跃编辑(应该定义)。

我不知道如何建立这样一个数据库,如何访问它,如何知道它有哪些类型的数据等等。所以我的问题是:

  1. 为此我需要什么工具(除了基本的 R)? MySQL 在我的电脑上? RODBC 数据库连接?
  2. 您如何开始规划此类项目?

最佳答案

您需要从这里开始: http://en.wikipedia.org/wiki/Wikipedia:Database_download

它将带你到这里: http://download.wikimedia.org/enwiki/20100312/

您可能需要的文件是:

# 2010-03-17 04:33:50 done Log events to all pages.
    * This contains the log of actions performed on pages.
    * pages-logging.xml.gz 1.0 GB

http://download.wikimedia.org/enwiki/20100312/enwiki-20100312-pages-logging.xml.gz

然后您会将 xml 导入 MySQL。每天、每周、每年等生成用户直方图不需要 R。您可以使用单个 MySQL 查询来完成。像这样的东西:

select DAYOFYEAR(wiki_edit_timestamp), count(*)
from page_logs
group by DAYOFYEAR(wiki_edit_timestamp)
order by DAYOFYEAR(wiki_edit_timestamp);

等等

(我不确定他们的实际架构是什么,但应该是这样的。)

毫无疑问,您会遇到问题,但您也会学到很多东西。祝你好运!

关于sql - 如何用 R 分析维基百科文章数据库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2614949/

相关文章:

sql - MS Access左联接SQL语法错误

php - 如何使用 php 将 MySQL 数据类型名称转换为正则表达式?

sql - Oracle MERGE 死锁

php - SQL选择查询需要很长时间

css - 调整 Shiny 进度条的大小并将其居中

mysql - 逗号分隔搜索

mysql - MySQL LIMIT 子句中的语法错误

mysql - Amazon 备份 RDS 实例时会发生什么?

r - 如何从计数向量中计算百分比

r - 如何手动将图例添加到 ggplot 对象