我有一个 xml 文件,我需要将其转换为 utf8。 不幸的是,这些实体包含这样的文本:
/mytext,
我正在使用编解码器库将文件转换为 utf8,但 html 实体无法使用它。
有没有简单的方法摆脱 html 编码?
谢谢
最佳答案
您可以通过 unescape 传递文件的文本函数,然后将其传递给 XML 解析器。
或者,如果您只解析 HTML,lxml's http parser为你做这件事:
>>> import lxml.html
>>> html = lxml.html.fromstring("<html><body><p>/mytext,</p></body></html>")
>>> lxml.html.tostring(html)
'<html><body><p>/mytext,</p></body></html>'
关于Python 将 html ascii 编码的文本转换为 utf8,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9487133/