from BeautifulSoup import BeautifulSoup
html = "<html><p>Para 1. Words</p><p>Merge. Para 2<blockquote>Quote 1<blockquote>Quote 2</p></html>"
print html
soup = BeautifulSoup(html)
print u''.join(soup.findAll(text=True))
这段代码的输出是“Para 1 WordsMerge. Para 2Quote 1Quote 2”。
我不希望第一段的最后一个词与第二段的第一个词合并。 例如。 “第 1 段单词合并。第 2 段引用 1 引用 2”。 这可以使用 BeautifulSoup 库来实现吗?
最佳答案
如果您使用的是 get_text()在版本 4.x 中:
from bs4 import BeautifulSoup
...
...
soup.get_text(" ")
关于python - 使用 Beautiful Soup 剥离 HTML 时保留空间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7072789/