python - python编码检测库

<分区>

这在某种程度上与我的问题 here 有关.

我处理大量通过 HTTP 获取的文本(主要是 HTML 和 XML)。我正在寻找一个 python 库，它可以根据不同的策略进行智能编码检测，并使用最佳可能的字符编码猜测将文本转换为 unicode。

我发现 chardet自动检测非常好。然而，自动检测一切都是问题，因为它很慢并且非常违反所有标准。根据 chardet FAQ我不想破坏标准。

来自同一个常见问题解答，这里列出了我要查找编码的位置:

基本上我希望能够查看所有这些地方并自动处理冲突信息。

那里有这样的库还是我需要自己写？

最佳答案

BeautifulSoup的 UnicodeDammit ，它又使用 chardet .

chardet 本身对于一般情况(确定文本的编码)非常有用，但如您所说的那样慢。 UnicodeDammit 在 chardet 之上添加了额外的功能，特别是它可以查找 XML 编码标签中明确指定的编码。

至于HTTP Content-type header，我觉得你需要自己去阅读，提取charset参数，然后传给UnicodeDammit 在 fromEncoding 参数中。

至于解决冲突，UnicodeDammit 将优先考虑明确规定的编码(如果编码不产生错误)。有关完整详细信息，请参阅文档。

关于python - python编码检测库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2307795/

相关文章：

python - 创建一个新的比率列