python - 使用 Beautiful Soup 剥离 HTML 时保留空间

标签 python html beautifulsoup

from BeautifulSoup import BeautifulSoup

html = "<html><p>Para 1. Words</p><p>Merge. Para 2<blockquote>Quote 1<blockquote>Quote 2</p></html>"
print html
soup = BeautifulSoup(html)
print u''.join(soup.findAll(text=True))

这段代码的输出是“Para 1 WordsMerge. Para 2Quote 1Quote 2”。

我不希望第一段的最后一个词与第二段的第一个词合并。 例如。 “第 1 段单词合并。第 2 段引用 1 引用 2”。 这可以使用 BeautifulSoup 库来实现吗?

最佳答案

如果您使用的是 get_text()在版本 4.x 中:

from bs4 import BeautifulSoup
...
...
soup.get_text(" ")

关于python - 使用 Beautiful Soup 剥离 HTML 时保留空间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7072789/

相关文章:

Python Beautifulsoup 从具有相同类的不同跨度中提取文本

html - 从表格单元格 div 中删除顶部填充

Javascript 绕过当前本地日期

python - 如何使用 beautifulsoup 在 span 标签之间进行抓取

Python bs4 : How to Repeat "For" Loop with a Different Expression List if a Certain Condition is Met?

python - 第二列中值的条件累积计数

python - 线性搜索 - Python

python - python的SimpleHTTPServer do_GET和do_POST函数如何工作?

ruby-on-rails - 存储 HTML5 地理位置数据

python - 如何使用 beautifulSoup 从 <td> 标签中单独抓取数据?