python - 使用 css 选择器提取具有特定类的链接

标签 python html css scrapy

我有以下 HTML 结构
我想用 class:dev-link

提取所有链接
<a class="dev-link" href="mailto:info@jourist.com" rel="nofollow" title='Photoshoot"</a> 

我正在使用下面的代码在 scrapy 中提取链接

response.css('.dev-link::attr(href)').extract()

我得到了正确的输出,但这是使用 css 选择器的正确方法吗??

最佳答案

正如您在 Scrapy Documentation 中看到的那样有两种废弃数据的方法,CSS SelectorXPath Selector 都可以正常工作,但是 XPath 需要一些练习才能成为专家,在我看来,Xpath 在特殊方面更强大在某些情况下,您可以比 CSS 选择器更容易地抓取数据(当然您也可以使用 CSS 选择器获取它们),

你做的是对的

 link = response.css('.dev-link::attr(href)').extract_first()

你也可以通过下面的方式获取它

link = response.xpath('/[contains(@class,’dev-link’)]/@href').extract_first()

关于python - 使用 css 选择器提取具有特定类的链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48448900/

相关文章:

html - 我如何将我的链接置于我的下拉菜单中(里面的另一个查询)?

css - 如何在表单左侧显示内容

Python NumPy vs Octave/MATLAB 精度

python - 在 pandas 的列匹配中替换另一个数据框中的 NaN 值的正确方法

python - 处理pandas中的多列和groupby/agg(无需手动分配所有聚合函数)

html - masonry 网格布局中的图片相互重叠

python - 通过 Python 使用 Spark 准备我的大数据

javascript - 如何在 Angular 组件的输入元素上正确设置 ID?

javascript - 将无序列表制作成下拉菜单

javascript - Nivo slider v3.1