python - 如何只选择具有相似ID的DIV

标签 python beautifulsoup

我正在使用 beautiful soup 解析一个设计不佳的网页。

目前,我需要的是选择网页的评论部分,但每个评论都被视为一个 DIV,并且每个评论都有一个类似“IAMCOMMENT_00001”的 ID,但仅此而已。没有类(class)(这会有很大帮助)。

因此,我被迫搜索所有以“IAMCOMMENT”开头的 DIV,但我不知道如何执行此操作。我能找到的最接近的是 SoupStrainer,但不明白如何使用它。

我怎样才能实现这一目标?

最佳答案

我会使用BeautifulSoup的内置find_all函数:

from bs4 import BeautifulSoup
soup = BeautifulSoup(yourhtml)
soup.find_all('div', id_=re.compile('IAMCOMMENT_'))

关于python - 如何只选择具有相似ID的DIV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26793393/

相关文章:

python - 如何根据日期条件在数据集上添加行?

python - 如何正确使用POST请求?

python - 请帮助我通过此错误消息来破解吗? - python

python - paramiko 没有现有的 session 异常

python - 为什么 Exception 将 __str__ 代理到 args 上?

python - 在浏览器中显示图像的简单 python 3 Web 服务器

python - 反向 shell 循环

python - 使用循环进行网页抓取并写入 csv

Python - 逐行读取 BeautifulSoup 片段? (或其他抓取我想要的数据的方法)

html - 来自 10-K EDGAR 的网页抓取风险因素