我有一段包含段落的 HTML。 (我的意思是 p
标签。)我想将字符串拆分成不同的段落。例如:
'''
<p class="my_class">Hello!</p>
<p>What's up?</p>
<p style="whatever: whatever;">Goodbye!</p>
'''
应该变成:
['<p class="my_class">Hello!</p>',
'<p>What's up?</p>'
'<p style="whatever: whatever;">Goodbye!</p>']
解决这个问题的好方法是什么?
最佳答案
如果您的字符串只包含段落,您可以使用精心制作的正则表达式和 re.split()
来摆脱困境。但是,如果您的字符串是更复杂的 HTML,或者不是始终有效的 HTML,您可能需要查看 BeautifulSoup包。
用法如下:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(some_html)
paragraphs = list(unicode(x) for x in soup.findAll('p'))
关于Python:将 HTML 片段分成段落,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2276824/