我正在使用 beautiful soup 解析一个设计不佳的网页。
目前,我需要的是选择网页的评论部分,但每个评论都被视为一个 DIV,并且每个评论都有一个类似“IAMCOMMENT_00001”的 ID,但仅此而已。没有类(class)(这会有很大帮助)。
因此,我被迫搜索所有以“IAMCOMMENT”开头的 DIV,但我不知道如何执行此操作。我能找到的最接近的是 SoupStrainer,但不明白如何使用它。
我怎样才能实现这一目标?
最佳答案
我会使用BeautifulSoup的
内置find_all
函数:
from bs4 import BeautifulSoup
soup = BeautifulSoup(yourhtml)
soup.find_all('div', id_=re.compile('IAMCOMMENT_'))
关于python - 如何只选择具有相似ID的DIV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26793393/