python - 如何选择网站中除给定类别之外的所有 URL？

标签 python regex xpath

我想使用正则表达式从我的 Twitter 关注者页面中选择所有 URL。如果我使用 https://twitter\.com/.*它将选择网站中与此模式匹配的所有 URL，但我想排除“关注者”部分中的用户。此 URL 位于 WhoToFollow 类中。所以，我的问题是:我可以使用 XPath、正则表达式或两者的组合来选择与先前模式匹配的所有 URL，但排除 Python 中 WhoToFollow 类中的 URL？谢谢!

丹尼

最佳答案

如果我正确理解，您可以使用这样的xpath，采用不带有类WhoToFollow的标签并且具有以https://twitter.com开头的url/。然后获取href的内容

//a[not(@class="WhoToFollow") and starts-with(@href, "https://twitter.com/")]/@href

关于python - 如何选择网站中除给定类别之外的所有 URL？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31570864/

上一篇：python - 从 Ubuntu+PYODBC 连接到 SQL Server 时出错

下一篇：python - 将实例变量设置为类函数的默认参数

python - Django dateutil ISO 8601 没有 'read' 属性错误

java - 正则表达式从字母中排除数字

python - 我的 PyTorch 模型中不同层的名称是什么？

regex - 超过复杂正则子表达式递归限制 (32766)

javascript - 正则表达式替换为正斜杠

xml - XSL : Xpath Query in <xsl:apply-templates> Isn't Returning Any Results

python - 使用 ItemLoader 但在 Scrapy 中添加 XPath、值等

python - python如何防止类被子类化？

python - 具有数字独立数据的 seaborn 中的水平条形图