python - 使用 BeautifulSoup 检查是否存在没有值的属性

标签 python html beautifulsoup

我正在尝试仅从已选中的表单中检索复选框旁边的标签文本。

这是 html:

<div class="x-panel-bwrap" id="ext-gen1956"><div 
class="x-panel-body" id="ext-gen1957" style="width: 226px;">
<div class="x-form-check-wrap" id="ext-gen1959"><input type="checkbox" autocomplete="off" id="ext-comp-1609" name="ext-comp-1609" class=" x-form-checkbox x-form-field">
<label for="ext-comp-1609" class="x-form-cb-label" id="ext-gen1960">labeltext1</label></div>
<div class="x-form-check-wrap" id="ext-gen1961"><input type="checkbox" autocomplete="off" id="ext-comp-1607" name="ext-comp-1607" class=" x-form-checkbox x-form-field">
<label for="ext-comp-1607" class="x-form-cb-label" id="ext-gen1962">labeltext2</label></div>
<div class="x-form-check-wrap" id="ext-gen1963"><input type="checkbox" autocomplete="off" id="ext-comp-1605" name="ext-comp-1605" class=" x-form-checkbox x-form-field" checked="">
<label for="ext-comp-1605" class="x-form-cb-label" id="ext-gen1964">labeltext3</label></div>

我想要获取的复选框旁边的标签由属性 checked=""区分

for checkboxes in soup.find_all('input', attrs={"id":"ext-comp-1609"}):
    if checkboxes.find('input', attrs={"checked":""}):
        label_1 = soup.find('label',{'id':'ext-gen1960'}).text
        print(label_1)
    else:
        continue

for checkboxes in soup.find_all('input', attrs={"id":"ext-comp-1607"}):
    if checkboxes.find('input', attrs={"checked":""}):
        label_2 = soup.find('label',{'id':'ext-gen1962'}).text
        print(label_2)
    except:
        continue

for checkboxes in soup.find_all('input', attrs={"id":"ext-comp-1605"}):
    if checkboxes.find('input', attrs={"checked":""}):
        label_3 = soup.find('label',{'id':'ext-gen1964'}).text
        print(label_3)
    else:
        continue

我的问题是,无论标签是否被选中,它都会抓取标签。我也尝试过使用 has_attr() 但它产生了相同的结果。

尝试过的解决方案:

soup = BeautifulSoup(browser.page_source, 'html.parser')
for checkbox in soup.find_all('input', checked=True):
    print(checkbox.label.get_text())

soup = BeautifulSoup(browser.page_source, 'html.parser')
for checkbox in soup.select('input[checked]'):
    print(checkbox.label.get_text())

for checkbox in soup.find_all('input', checked=True):
    print(checkbox.find_next_sibling("label").get_text())

最佳答案

您应该对所有 input 元素应用 checked=True 检查。然后,获取内部 label 元素及其文本:

soup = BeautifulSoup(data, "html.parser")
for checkbox in soup.find_all('input', checked=True):
    print(checkbox.label.get_text())

请注意,对于 html5liblxml,您需要一种不同的方式来获取标签:

soup = BeautifulSoup(data, "html5lib")
for checkbox in soup.find_all('input', checked=True):
    print(checkbox.find_next_sibling("label").get_text())

在你的输入数据上为我工作:

In [1]: from bs4 import BeautifulSoup

In [2]: data = """your HTML here"""

In [3]: soup = BeautifulSoup(data, "html.parser")

In [4]: for checkbox in soup.find_all('input', checked=True):
   ...:     print(checkbox.label.get_text())
   ...:     
Can Submit Expense Reports

关于python - 使用 BeautifulSoup 检查是否存在没有值的属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42535305/

相关文章:

python - 使用 Beautiful Soup Python 进行网页抓取

javascript - 使用 python 2.7、beautiful soup 和 selenium 抓取 asp 和 javascript 生成表

python - 获取周开始日不同于周一的周数 - Python

html - 隐藏透明div下的部分div

html - 兄弟绝对元素上的 z-index

java - 在 servlet 响应中正确写入 HTML 页面

python - 从嵌套字典中的文件中读取初始未知数量的 N 行,并在第 N+1 行处开始下一次迭代

python - 无法通过模块查看或修改 PYTHONHASHSEED 的值

python - 从外籍人士的解析错误中优雅地恢复

python - 如何获取带有与浏览器 View 而不是 html 源匹配的换行符的文本(使用 python 和 beautifulsoup)