我想编写一个代码片段来获取 <content>
中的所有文本标记,在 lxml 中,在以下所有三个实例中,包括代码标记。我试过tostring(getchildren())
但这会错过标签之间的文本。我在 API 中搜索相关功能时运气不佳。你能帮帮我吗?
<!--1-->
<content>
<div>Text inside tag</div>
</content>
#should return "<div>Text inside tag</div>
<!--2-->
<content>
Text with no tag
</content>
#should return "Text with no tag"
<!--3-->
<content>
Text outside tag <div>Text inside tag</div>
</content>
#should return "Text outside tag <div>Text inside tag</div>"
最佳答案
只需使用 node.itertext()
方法,如:
''.join(node.itertext())
关于python - 获取lxml中标签内的所有文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4624062/