html - 将 rvest::html_nodes() 与来自 SelectorGadget 或 Chrome 开发者工具的 CSS 标签一起使用总是返回空列表

标签 html css xpath web-scraping rvest

我目前正在为新闻网站网络爬虫制作 POC 脚本。我是新手,但在完成 Datacamp 上的 API 使用类(class)后,我对 css 标签和 xpaths 有了基本的了解。我去了彭博欧洲主页(我知道他们有一个 API,我只是想要一个更大的新闻网站来测试代码)配备了 SelectorGadget 和谷歌浏览器的“选择页面中的一个元素来检查它”功能,复制了我的内容我认为是相关的 CSS 标签和/或 xpath,当我将它们中的任何一个提供给 rvest::html_nodes() 时,立即收到一个空列表。

我使用的代码在这里:

  library(rvest)

url <- "https://www.bloomberg.com/europe"

webpage <- read_html(url) 


xpath_id='//*[contains(concat( " ", @class, " " ), concat( " ", "story-package-module__story__headline-link", " " ))]'
titles_html_xpath <- html_nodes(webpage, xpath = xpath_id)
# xpath returns empty list, try css


titles_html_selectorgadget <- html_nodes(webpage, css =".story-package-module__story__headline")
# also empty, try alternative class tag

titles_html_selectorgadget2 <- html_nodes(webpage, css =".story-package-module__story mod-story")
# still empty!

关于什么是正确的标签(在这种情况下获取文章标题)的任何建议,更重要的是我应该如何确定在未来的情况下我需要哪个 CSS 标签,尤其是当有这么多的 css 类分层时相互叠加,SelectorGadget 推荐的标签不正确?

最佳答案

您的问题不在于您使用了哪些选择器。问题是,当您向 www.bloomberg.com 发送 http 请求时,它会检测到您没有使用标准的网络浏览器,并且会阻止您,因为它不想被抓取。看:

    library(rvest)
    url <- "https://www.bloomberg.com/europe"
    webpage <- read_html(url)
    html_text(webpage)

    # [1] "Bloomberg - Are you a robot?\n     ... <truncated>

因此,您从 rvest 获得的 html 与您在 Chrome 开发人员面板中看到的 html 不同。

可能有一些解决方法,包括更改 httr 中的用户代理字符串,或使用 RSelenium 抓取页面,甚至只是在 RSelenium 中 headless 地启动 firefox 浏览器并将其 cookie 复制到 httr。可能更容易使用 API,或者尝试从新闻站点地图中解析标题:

    node_set <-  read_xml("https://www.bloomberg.com/feeds/bbiz/sitemap_news.xml")
    print(head(xml_text(xml_nodes(node_set, xpath = "//news:title"))))

    # [1] "Partners In Health Co-Founder Dr. Paul Farmer on U.S. Healthcare"                      
    # [2] "Partners In Health Co-Founder Dr. Paul Farmer on private, public intersection of funds"
    # [3] "Canada's Trudeau on Losing the Majority in Parliament"                                 
    # [4] "Icehotel Back In Business"                                                             
    # [5] "Can Nostalgia Revive Star Wars?"     

但是,对于您所描述的目的,最好只选择一个不同的新闻网站来练习。 BBC 新闻网站应该没问题:

    library(rvest)
    url <- "https://www.bbc.co.uk/news"
    webpage <- read_html(url)
    headline_nodes <- html_nodes(webpage, "h3")
    headlines <- html_text(headline_nodes)
    print(head(headlines))

    # [1] "Washing machine danger revealed as recall launched"
    # [2] "Washing machine danger revealed as recall launched"
    # [3] "Black cab rapist 'might never cease to be risk'"   
    # [4] "Brexit bill to rule out extension"                 
    # [5] "'I was getting beaten up while I was asleep'"      
    # [6] "Trump pens irate impeachment letter to Pelosi" 

这里有一个很好的提示,如果您在解析 html 时遇到问题,您应该确保您实际上得到了您认为的 html。许多页面是通过 Javascript 动态加载的,这可能会导致您在浏览器中看到的页面 block 丢失。或者,在这种情况下,服务器可能会向您提供意外的页面。您可以通过以下方式检查您是否拥有正确的页面

    library(httr)
    writeClipboard(content(GET(url), "text"))

并通过将其粘贴到您最喜欢的文本编辑器中来检查您实际获得的 html。

关于html - 将 rvest::html_nodes() 与来自 SelectorGadget 或 Chrome 开发者工具的 CSS 标签一起使用总是返回空列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59375856/

相关文章:

html - 用于将元素放置在元素上的绝对位置的任何替代方法?

javascript - 使用 jQuery 上传文件时显示 loading.gif

html - transform rotate 将 div 推离屏幕并变得不可见

javascript - Ajax Loader 和链式选择框

html - css 定位 z-index 负边距

python - BeautifulSoup 看似随机地从页面中提取 23、42 或 87 个结果,尽管页面有 100 个结果

xml - 查询元素内的 XML 内容

iphone - iPhone/Android 浏览器上的 Google Maps API InfoWindow 高度不正确

css - 为什么 'filter: invert(1) hue-rotate(180deg)' 将红色变成桃红色?

java - xpath获取表中的行