python - 如何将 BeautifulSoup.ResultSet 转换为字符串

标签 python unicode beautifulsoup

所以我将一个带有 .findAll (BeautifulSoup) 的 html 页面解析为名为 result 的变量。如果我在 Python shell 中键入 result 然后按 Enter，我会按预期看到普通文本，但由于我想将此结果作为字符串对象进行后处理，我注意到 str(result) 返回垃圾，就像这个示例:

\xd1\x87\xd0\xb8\xd0\xbb\xd0\xbd\xd0\xb8\xd1\x86\xd0\xb0</a><br />\n<hr />\n</div>

Html 页面源是utf-8 编码

我该如何处理？

代码基本上是这样的，以防万一:

from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(urllib.open(url).read())
result = soup.findAll(something)

Python 是 2.7

最佳答案

python 2.6.7 BeautifulSoup.版本 3.2.0

这对我有用:

unicode.join(u'\n',map(unicode,result))

我很确定 result 是一个 BeautifulSoup.ResultSet 对象，它似乎是标准 python 列表的扩展

关于python - 如何将 BeautifulSoup.ResultSet 转换为字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7782772/

上一篇：python: re.sub 的替换函数不接受额外的参数——如何避免全局变量？

下一篇：python - 如何进行原子文件替换？

android - 生成的渲染脚本文件导致 “Invalid unicode”错误

python - 我可以填写输入字段并单击表单中没有的提交按钮吗？

Python:AttributeError: 'NoneType' 对象没有属性 'split'

python - 如何解码编码的种子数据

python - 尝试使用 FastAPI 和 python-docx 库读取 docx 文件 : AttributeError: 'bytes' object has no attribute 'seek' error

html - HTML 字体中缺少/替换的箭头字形

python - 使用 BeautifulSoup Python 在 span 标签之间提取数据

python - multiprocessing.cpu_count 返回错误的核心数

python - for 循环构造，循环前带有数组