python - 关于 BeautifulSoup 中 get_text() 的建议

我正在使用 BeautifulSoup 来解析 html 页面中的一些内容。

我可以从 html 中提取我想要的内容(即包含在由 span myclass 定义的 class 中的文本)。

result = mycontent.find(attrs={'class':'myclass'})

我得到这个结果:

<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>

如果我尝试使用以下方法提取文本:

result.get_text()

我得到:

Lorem ipsumdolor sit amet,consectetur...

如您所见，标记 <br> 时被删除，内容之间不再有空格，两个单词被连接起来。

我该如何解决这个问题？

最佳答案

如果您使用的是 bs4，则可以使用 strings :

" ".join(result.strings)

关于python - 关于 BeautifulSoup 中 get_text() 的建议，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16121001/

相关文章：

json - 解析同时包含 HTML 和 Json 数据的网页