我想从文件夹中读取所有文件(使用 os.walk
)并将它们转换为一种编码 (UTF-8)。问题是那些文件没有相同的编码。它们可以是 UTF-8、带 BOM 的 UTF-8、UTF-16。
有没有办法在不知道编码的情况下读取这些文件?
最佳答案
您可以以二进制模式读取这些文件。还有 chardet 模块。使用它,您可以检测文件的编码并解码您获得的数据。尽管此模块有局限性。
举个例子:
from chardet import detect
with open('your_file.txt', 'rb') as ef:
detect(ef.read())
关于python - 在不知道编码的情况下使用 Python 读取文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34428007/