<分区>
这在某种程度上与我的问题 here 有关.
我处理大量通过 HTTP 获取的文本(主要是 HTML 和 XML)。我正在寻找一个 python 库,它可以根据不同的策略进行智能编码检测,并使用最佳可能的字符编码猜测将文本转换为 unicode。
我发现 chardet自动检测非常好。然而,自动检测一切都是问题,因为它很慢并且非常违反所有标准。根据 chardet
FAQ我不想破坏标准。
来自同一个常见问题解答,这里列出了我要查找编码的位置:
- HTTP 中的字符集参数
Content-type
标题。 -
<meta http-equiv="content-type">
中的元素<head>
网页的 HTML 文件。 - XML 的 XML 序言中的编码属性 文件。
- 自动检测字符编码作为最后的手段。
基本上我希望能够查看所有这些地方并自动处理冲突信息。
那里有这样的库还是我需要自己写?