python - 如何选择网站中除给定类别之外的所有 URL?

标签 python regex xpath

我想使用正则表达式从我的 Twitter 关注者页面中选择所有 URL。如果我使用 https://twitter\.com/.*它将选择网站中与此模式匹配的所有 URL,但我想排除“关注者”部分中的用户。此 URL 位于 WhoToFollow 类中。所以,我的问题是:我可以使用 XPath、正则表达式或两者的组合来选择与先前模式匹配的所有 URL,但排除 Python 中 WhoToFollow 类中的 URL? 谢谢!

丹尼

最佳答案

如果我正确理解,您可以使用这样的xpath,采用不带有类WhoToFollow标签并且具有以https://twitter.com开头的url/。然后获取href的内容

//a[not(@class="WhoToFollow") and starts-with(@href, "https://twitter.com/")]/@href

关于python - 如何选择网站中除给定类别之外的所有 URL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31570864/

相关文章:

java - 如何在 Android 上将 Java XPath 与 KML 文件和命名空间一起使用

python - Django dateutil ISO 8601 没有 'read' 属性错误

java - 正则表达式从字母中排除数字

python - 我的 PyTorch 模型中不同层的名称是什么?

regex - 超过复杂正则子表达式递归限制 (32766)

javascript - 正则表达式替换为正斜杠

xml - XSL : Xpath Query in <xsl:apply-templates> Isn't Returning Any Results

python - 使用 ItemLoader 但在 Scrapy 中添加 XPath、值等

python - python如何防止类被子类化?

python - 具有数字独立数据的 seaborn 中的水平条形图