python - 关于 BeautifulSoup 中 get_text() 的建议

标签 python beautifulsoup

我正在使用 BeautifulSoup 来解析 html 页面中的一些内容。

我可以从 html 中提取我想要的内容(即包含在由 span myclass 定义的 class 中的文本)。

result = mycontent.find(attrs={'class':'myclass'})

我得到这个结果:

<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>

如果我尝试使用以下方法提取文本:

result.get_text()

我得到:

Lorem ipsumdolor sit amet,consectetur...

如您所见,标记 <br> 时被删除,内容之间不再有空格,两个单词被连接起来。

我该如何解决这个问题?

最佳答案

如果您使用的是 bs4,则可以使用 strings :

" ".join(result.strings)

关于python - 关于 BeautifulSoup 中 get_text() 的建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16121001/

相关文章:

json - 解析同时包含 HTML 和 Json 数据的网页

python - 从字符串中提取2组数字

python - 使用自定义刻度标签绘制矩阵数据

python - 如何控制python中迭代器结果的顺序

python - django {% trans "Hello"%} 不工作

python - 检索自上次操作以来的时间差——python/pandas

xml - 使用Python3和BeautifulSoup解析xml文件

python - 如何使用 Python、BeautifulSoup、re 从 URL 获取 eBay 反馈

python - 在 Python 中处理 `&#xA;`

python - 查找每个引用并将其附加到 html 链接 - Python