我有一个 HTML 文件,我想从这个 block 中获取文本,如下所示:
<strong class="fullname js-action-profile-name">User Name</strong>
<span>‏</span>
<span class="username js-action-profile-name"><s>@</s><b>UserName</b></span>
我希望它显示为:
User Name
@UserName
我如何使用 Beautiful Soup 做到这一点?
最佳答案
使用“文本”属性。示例:
>>> b = BeautifulSoup.BeautifulStoneSoup(open('/tmp/x.html'), convertEntities=BeautifulSoup.BeautifulStoneSoup.HTML_ENTITIES)
>>> print b.find(attrs={"id": "container"}).text
User Name@UserName
在 x.html 中,我有一个包含您提供的 html 的 div,其 ID 为“container”。请注意,我使用 BeautifulStoneSoup 将 转换为\u200f。要插入换行符(浏览器不会引入),只需将 u'\u200f' 替换为 '\n'。
关于python - Beautiful Soup - 从 HTML 文件中取出类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9661045/