python - 足球统计 Python 抓取工具

标签 python r web-scraping lxml

我想刮一些 Houston Dynamo stats from this season转换为 CSV,然后使用 R 可视化该数据。

如何使用 lxml 抓取 tr 和 td 元素?有没有我应该看的更简单的选择器?

最佳答案

对于(合理)格式良好的 HTML 表格,R 中的 XML 包使这类事情变得非常简单:

library(XML)
> url <- "http://www.houstondynamo.com/stats/season?page=0"
> tbl <- readHTMLTable(url)
> head(tbl[[1]])
           Player POS GP GS MINS  G  A SHTS SOG GWG PKG/A HmG RdG G/90min  SC%
1      Will Bruin   F 32 31 2510 12  4   78  35   0   0/0   6   6    0.43 15.4
2      Brad Davis   M 31 28 2523  8 12   53  22   3   3/4   5   3    0.29 15.1
3     Brian Ching   F 30 13 1385  5  5   35  15   1   2/2   2   3    0.32 14.3
4   Boniek Garcia   M 17 17 1530  4  6   30  12   1   0/0   3   1    0.24 13.3
5      Calen Carr   M 26 17 1512  4  2   29  11   2   0/0   3   1    0.24 13.8
6 Macoumba Kandji   F 29 21 1630  4  2   34  16   1   0/0   3   1    0.22 11.8

关于python - 足球统计 Python 抓取工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13733276/

相关文章:

Python IOError : Not a gzipped file (Gzip and Blowfish Encrypt/Compress) 错误

r - 调整通过ggplot()和facet_grid绘制的面板的大小

r - listcolumns 和 multidplyr

python - 从多个页面抓取表格并从链接添加数据

python - 尝试使用 Scrapy 抓取 LinkedIn 时出现 999 响应

python - Django - 如何找到查询集被排序的字段?

python - 当窗口大小调整时,如何调整放置的 tkinter 小部件的大小?

r - 如何使用 renv 显式管理依赖关系

javascript - 使用 PhantomJS 和 node.js 保存和渲染网页

python - 越界纳秒时间戳