所以我将一个带有 .findAll
(BeautifulSoup) 的 html 页面解析为名为 result
的变量。
如果我在 Python shell 中键入 result
然后按 Enter,我会按预期看到普通文本,但由于我想将此结果作为字符串对象进行后处理,我注意到 str(result)
返回垃圾,就像这个示例:
\xd1\x87\xd0\xb8\xd0\xbb\xd0\xbd\xd0\xb8\xd1\x86\xd0\xb0</a><br />\n<hr />\n</div>
Html 页面源是utf-8
编码
我该如何处理?
代码基本上是这样的,以防万一:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(urllib.open(url).read())
result = soup.findAll(something)
Python 是 2.7
最佳答案
python 2.6.7 BeautifulSoup.版本 3.2.0
这对我有用:
unicode.join(u'\n',map(unicode,result))
我很确定 result
是一个 BeautifulSoup.ResultSet
对象,它似乎是标准 python 列表的扩展
关于python - 如何将 BeautifulSoup.ResultSet 转换为字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7782772/