这是我发布的第一个问题,如果我应该让问题更清楚,请告诉我。此外,我才刚刚开始使用 Python,所以我希望我能用正确的术语来表达问题。
基本上,我已经创建了一个可定制的网络爬虫,它依赖于用户对 CSS 选择器的了解。用户首先必须访问他们想要抓取的网站并记下他们想要的元素的 css 选择器(“AA”)并将其输入到 excel 文件中,python 脚本将在其中读取输入并将其传递browser.find_elements_by_css_selector("AA") 并通过 .text.encode('utf-8') 获取相关文本
但是我注意到有时属性值中可能有重要信息应该被抓取。我环顾四周,发现建议总是包含 .get_attribute()
1) 是否可以通过仅使用 browser.find_elements_by_css_selector("AA") 而不使用 browser.find_elements_by_css_selector("AA").get_attribute("BB") 来获取属性值。否则,
2) 用户是否可以在 browser.find_elements_by_css_selector("AA").get_attribute("BB") 中的“BB”中输入一些值,这样只有 browser.find_elements_by_css_selector("AA") 会运行?
最佳答案
是,有一种替代方法可以在不使用 get_attribute()
方法的情况下检索 text 属性值。我不确定这是否可以通过 css 实现,但通过 xpath 是可能的。几个例子如下:
关于python - 如何在不使用 .get_attribute() 的情况下使用 Selenium python 获取属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48512472/