html - 如何使用 rvest 收集此表中的所有 url?

标签 html r web-scraping rvest

我正在尝试获取表格第一列中的所有链接 here

我只能获取第一个链接/行。

library(rvest)
        url <- "https://di.hkex.com.hk/di/NSSrchPersonList.aspx?sa1=pl&scsd=01/01/2018&sced=31/12/2018&pn=wing&src=MAIN&lang=EN"   

        l <-    wahis.session %>%
          html_nodes(xpath = '//*[@id="grdPaging"]') %>%
          map_chr(~html_attr(html_node(., "a"), "href"))

        l <- as.data.frame(l)

最佳答案

rvest 支持 nth-of-type伪类 css 选择器,因此您可以将以下内容用于具有指定 id 的表的第一列 tds 的子 a 标签

library(rvest)
url <- "https://di.hkex.com.hk/di/NSSrchPersonList.aspx?sa1=pl&scsd=01/01/2018&sced=31/12/2018&pn=wing&src=MAIN&lang=EN"   
links <- url %>%
  read_html() %>%
  html_nodes("#grdPaging td:nth-of-type(1) a") %>%
  html_attr("href")

关于html - 如何使用 rvest 收集此表中的所有 url?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56720546/

相关文章:

python - BeautifulSoup - 如何从网站提取电子邮件?

html - 使用 rvest 跟随 "next"与相对路径的链接

java - 需要从 google 关键字外部工具中提取结果?

javascript - 屏幕外汉堡包导航

html - CSS/HTML 垂直滚动条越过窗口边缘?

html - 使用第 n 个选择器选择特定的 div?

HTML div 居中不起作用

r - 带 dplyr 的条件 rowMeans

r - 从数据框插入RMySQL

r - 强制交互式 R session