python - BeautifulSoup 只提取顶级标签

标签 python html python-3.x web-scraping beautifulsoup

<分区>

我正在使用 Python 3.4 中的 BeautifulSoup 进行一些网页抓取。

现在我在学习过程中遇到了一个问题: 我正在尝试从网页中获取表格行,我正在使用 find_all() 来获取它们,但在表格内部 - 有更多表格,其中包含表格行!我怎样才能获取BeautifulSoup中标签的顶级/第一级一般或特定元素?

# Retrieves all the row ('tr') tags in table
my_table.find_all('tr')

顺便说一句,这个问题是这个问题的重复(只有那边使用的编程语言是PHP):Extract only first level paragraphs from html

最佳答案

显然 find_all() 方法中有一个名为 recursive 的参数,默认设置为 True

将其设置为 false,使该方法仅返回顶级元素。

find_all('tr', recursive=False)

关于python - BeautifulSoup 只提取顶级标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37911009/

相关文章:

python 社交身份验证未注册域

javascript - 在 Javascript 中加载时读取大型 (1G) 二进制文件

Python - itertools.product 不多次使用元素

python-3.x - 使用用户名和密码在受限文件共享文件夹中写入文本文件

python - Python中是否有用于纯文本文件的 native 模板系统?

python - 基于cvxopt的python半定嵌入

python - 如何在 Python 中实现可下标的类(可下标的类,不可下标的对象)?

javascript - 在按钮中显示 javascript 数组的内容

html - UC Mini 浏览器中的网站布局不完美,为什么?

python - Python3.0动态导入模块?