python - Beautiful Soup - 从 HTML 文件中取出类

我有一个 HTML 文件，我想从这个 block 中获取文本，如下所示:

 <strong class="fullname js-action-profile-name">User Name</strong>
    <span>&rlm;</span>
    <span class="username js-action-profile-name"><s>@</s><b>UserName</b></span>

我希望它显示为:

User Name
@UserName

我如何使用 Beautiful Soup 做到这一点？

最佳答案

使用“文本”属性。示例:

>>> b = BeautifulSoup.BeautifulStoneSoup(open('/tmp/x.html'), convertEntities=BeautifulSoup.BeautifulStoneSoup.HTML_ENTITIES)

>>> print b.find(attrs={"id": "container"}).text
User Name‏@UserName

在 x.html 中，我有一个包含您提供的 html 的 div，其 ID 为“container”。请注意，我使用 BeautifulStoneSoup 将转换为\u200f。要插入换行符(浏览器不会引入)，只需将 u'\u200f' 替换为 '\n'。

关于python - Beautiful Soup - 从 HTML 文件中取出类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9661045/

上一篇：javascript - HTML5 与 javascript 解析和显示文本文件

下一篇：html - 如何在 Web 浏览器中拉伸(stretch)标题背景颜色？

相关文章：

Python:如何将一条线拟合到特定的数据区间？

python - 使用 slurm 在网格上运行 helloworld.py 程序

javascript - 使用表单将变量从 JavaScript 发布到 PHP

python - BS4 某些行不返回任何内容

python - 使用 Beautifulsoup 4 和 Python 2.7 解析 Web 表单

python - 无法挤压 dim[1]，期望维度为 1，结果为 2

html - 显示:Block as an input submit,可以吗？

javascript - 在代码中发布引用图像

excel - 从带有 <li> 标签的网站中抓取 html 数据

python - 如何在 python 3.6 上安装 pip，而不是默认的 python 2.7？