Python HTML 抓取

标签 python html regex screen-scraping html-content-extraction

这并不是真正的抓取,我只是想在网页中找到类具有特定值的 URL。例如:

<a class="myClass" href="/url/7df028f508c4685ddf65987a0bd6f22e">

我想获取 href 值。关于如何做到这一点的任何想法?也许正则表达式?你能发布一些示例代码吗? 我猜 html 抓取库,比如 BeautifulSoup,只是为了这个有点矫枉过正......

非常感谢!

最佳答案

正则表达式通常不是一个好主意,尝试使用 BeautifulSoup

简单示例:

html = #get html
soup = BeautifulSoup(html)
links = soup.findAll('a', attrs={'class': 'myclass'})
for link in links:
    #process link

关于Python HTML 抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1793663/

相关文章:

python - 使用结构进行 django 部署 - TypeError : prepare_deployment() takes exactly 1 argument (0 given)

python - 如何使用正则表达式提取 img 标签中的 src?

javascript - 此表单不安全自动填充已仅在 chrome 中关闭

python - matplotlib:断轴和不均匀缩放

python - 如何获取特定列表元素的平均值

javascript - 带图像的 HTML/CSS 模态对话框(Sweetalert 或其他)

html - 如何更改悬停框中的图像

c++ - 调试版本中的 TRE 模糊正则表达式库运行时错误 : MSVCP90. dll 丢失

ruby - 使用 Ruby 正则表达式匹配文件名的最有效方法

regex - PowerShell 正则表达式来挑选耗时