python - 在python中将任何编码转换为utf8?

标签 python unicode encoding utf-8 character-encoding

我正在抓取来自不同网站的网页,它们具有不同的编码。我得到的编码示例是 -

  • Big5
  • TIS-620
  • utf-16le
  • shift_JIS
  • EUC-JP
  • 麦克西里尔文
  • 锦鲤8-r

除了更常见的编码。我可以通过使用上述编码解码得到网页的unicode源。

我的问题是:我想将所有文件存储为 utf8。如果我使用 utf8 对 unicode 源代码进行编码,它是否适用于所有网页? utf8 是否支持所有 unicode 代码点?

最佳答案

是的,UTF-8 只不过是一种以字节为单位存储整数的方案,较小的整数占用较少的字节。结果是小于 128 的值存储在一个字节中,因此 ASCII 仍然是 ASCII。 UTF-8 可以表示所有 Unicode 代码点。

关于python - 在python中将任何编码转换为utf8?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6972466/

相关文章:

python - lambdify 到 py 函数 : How to maintain the order of symbols constant

python - 从一组 3D 点中采样 N 个点,使最小距离最大化

unicode - SQLite 字符串比较的本地化 COLLATE

c++ - std::wstring 导致堆内存分配崩溃

perl:捕获 STDOUT- 日志文件最终为二进制文件

python - 如何在 sklearn 中使用 BERT 和 Elmo 嵌入

python - 如何让python打开外部文件?

c# - 如何更改 HttpWebRequest 中 UserAgent 的编码?

php - 导入的数据库转储从 latin1 数据库到 utf8 数据库

java - 这个 '\x00\x00\x00\x05' 是什么编码?