python - Beautiful Soup - 从 HTML 文件中取出类

标签 python html beautifulsoup

我有一个 HTML 文件,我想从这个 block 中获取文本,如下所示:

 <strong class="fullname js-action-profile-name">User Name</strong>
    <span>&rlm;</span>
    <span class="username js-action-profile-name"><s>@</s><b>UserName</b></span>

我希望它显示为:

User Name
@UserName

我如何使用 Beautiful Soup 做到这一点?

最佳答案

使用“文本”属性。示例:

>>> b = BeautifulSoup.BeautifulStoneSoup(open('/tmp/x.html'), convertEntities=BeautifulSoup.BeautifulStoneSoup.HTML_ENTITIES)

>>> print b.find(attrs={"id": "container"}).text
User Name‏@UserName

在 x.html 中,我有一个包含您提供的 html 的 div,其 ID 为“container”。请注意,我使用 BeautifulStoneSoup 将 转换为\u200f。要插入换行符(浏览器不会引入),只需将 u'\u200f' 替换为 '\n'。

关于python - Beautiful Soup - 从 HTML 文件中取出类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9661045/

相关文章:

Python:如何将一条线拟合到特定的数据区间?

python - 使用 slurm 在网格上运行 helloworld.py 程序

javascript - 使用表单将变量从 JavaScript 发布到 PHP

python - BS4 某些行不返回任何内容

python - 使用 Beautifulsoup 4 和 Python 2.7 解析 Web 表单

python - 无法挤压 dim[1],期望维度为 1,结果为 2

html - 显示:Block as an input submit,可以吗?

javascript - 在代码中发布引用图像

excel - 从带有 <li> 标签的网站中抓取 html 数据

python - 如何在 python 3.6 上安装 pip,而不是默认的 python 2.7?