在 R 中从该页面抓取投注预测的最佳方式是什么?
http://www.racingpost.com/horses2/cards/card.sd?race_id=632478&r_date=2015-08-24#raceTabs=sc_
我已经尝试过这个:
CardURL = getURL(paste("http://www.racingpost.com/horses2/cards/card.sd?race_id=",race_id,"&r_date=",r_date,"#raceTabs=sc_"))
doc = (htmlParse(CardURL, asText=TRUE))
plain.text = data.frame(xpathSApply(doc, "//p", xmlValue))
但它不会显示投注预测,因为您需要登录(上午 9 点之前)。有没有办法使用成员(member)凭据/自动登录来抓取页面? htmlParse
是抓取该网页的最佳方式吗?
最佳答案
curl 和 httr 是提供 http 客户端功能的出色软件包。这篇 rbloggers 文章提供了很好的介绍,以及 curl 小插图的链接:http://www.r-bloggers.com/the-curl-package-a-modern-r-interface-to-libcurl/
我认为这对您来说可能是一个更好的解决方案,因为该包将能够一起处理身份验证和解析。
关于java - HTML/JAVA 抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32175438/