这并不是真正的抓取,我只是想在网页中找到类具有特定值的 URL。例如:
<a class="myClass" href="/url/7df028f508c4685ddf65987a0bd6f22e">
我想获取 href 值。关于如何做到这一点的任何想法?也许正则表达式?你能发布一些示例代码吗? 我猜 html 抓取库,比如 BeautifulSoup,只是为了这个有点矫枉过正......
非常感谢!
最佳答案
正则表达式通常不是一个好主意,尝试使用 BeautifulSoup
简单示例:
html = #get html
soup = BeautifulSoup(html)
links = soup.findAll('a', attrs={'class': 'myclass'})
for link in links:
#process link
关于Python HTML 抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1793663/