我有以下 xml 文档:
<package>
<title>セレニティー (字幕版)</title>
...
</package>
我使用lxml
来解析标题,如下所示:
node = etree.fromstring(file_contents)
title = node.xpath("//t:title/text()")
title
[u' \u30bb\u30ec\u30cb\u30c6\u30a3\u30fc (\u5b57\u5e55\u7248)']
但是,当我使用title.encode(utf-8)
将其INSERT
到我的数据库中时,我得到了乱码:
���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������
我如何正确解析此处的title
(セreneティー(字幕版)),以便我可以对值进行INSERT
。
最佳答案
确保您的 MySQL 实例也设置为将 Unicode 存储为 UTF-8。
关于python - 使用lxml解析带有日语的xml,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9352817/