我正在抓取来自不同网站的网页,它们具有不同的编码。我得到的编码示例是 -
- Big5
- TIS-620
- utf-16le
- shift_JIS
- EUC-JP
- 麦克西里尔文
- 锦鲤8-r
除了更常见的编码。我可以通过使用上述编码解码得到网页的unicode源。
我的问题是:我想将所有文件存储为 utf8。如果我使用 utf8 对 unicode 源代码进行编码,它是否适用于所有网页? utf8 是否支持所有 unicode 代码点?
最佳答案
是的,UTF-8 只不过是一种以字节为单位存储整数的方案,较小的整数占用较少的字节。结果是小于 128 的值存储在一个字节中,因此 ASCII 仍然是 ASCII。 UTF-8 可以表示所有 Unicode 代码点。
关于python - 在python中将任何编码转换为utf8?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6972466/