java - HTML/JAVA 抓取

标签 java html r html-parsing

在 R 中从该页面抓取投注预测的最佳方式是什么?

http://www.racingpost.com/horses2/cards/card.sd?race_id=632478&r_date=2015-08-24#raceTabs=sc_

我已经尝试过这个:

CardURL = getURL(paste("http://www.racingpost.com/horses2/cards/card.sd?race_id=",race_id,"&r_date=",r_date,"#raceTabs=sc_")) 

doc = (htmlParse(CardURL, asText=TRUE))

plain.text = data.frame(xpathSApply(doc, "//p", xmlValue))

但它不会显示投注预测,因为您需要登录(上午 9 点之前)。有没有办法使用成员(member)凭据/自动登录来抓取页面? htmlParse 是抓取该网页的最佳方式吗?

最佳答案

curl 和 httr 是提供 http 客户端功能的出色软件包。这篇 rbloggers 文章提供了很好的介绍,以及 curl 小插图的链接:http://www.r-bloggers.com/the-curl-package-a-modern-r-interface-to-libcurl/

我认为这对您来说可能是一个更好的解决方案,因为该包将能够一起处理身份验证和解析。

关于java - HTML/JAVA 抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32175438/

相关文章:

R、时间序列、Arima 模型、预测、每日数据

java.lang.OutOfMemory错误: Java heap space (JUnit test)

html - 返回 JS 函数的值并将其用作输入按钮的值

java - 在java中为具有特殊字符的字符串赋值,例如\"和其他字符

html - Webkit @font-face 渲染问题 - 一些元素不使用字体

javascript - 悬停时 clearInterval 并且如果元素具有特定背景

r - 使用 R rvest 库在 iframe 中抓取表

r - dplyr - 使用列名作为函数参数

java - Android - 链接到网站的自定义 ListView

java - Spring MVC - 使用 @ResponseBody 时设置 JAXB 编码器属性