我试图在 python 3 终端中读取 6GB 的文件,但无法执行读取文件行。代码如下:
#define data directory
data_dir = 'C://Star/star_data/csv\Globe'
#read the review dataset
yelp = pd.read_csv(data_dir+'\star_data_python.csv')
X, y = star.data, star.target
X.shape
错误:
UnicodeDecodeError Traceback (most recent call last)
<ipython-input-4-bc09b45c73bb> in <module>()
4
5 #read the review dataset
----> 6 yelp = pd.read_csv(data_dir+'\star_data_python.csv')
7 X, y = star.data, star.target
8 X.shape
可能是什么问题?谢谢
最佳答案
由于您使用的是 Windows,因此请在路径前使用 r
:
例如
data_dir = r'C://Star/star_data/csv/Globe'
'r'
表示该字符串将被视为原始字符串,这意味着所有转义码都将被忽略。
尝试调用 read_csv
使用 encoding='latin1'
、encoding='iso-8859-1'
或 encoding='cp1252'
;这些是 Windows 上发现的各种编码。
例如
full_path = data_dir + r'/star_data_python.csv'
pd.read_csv(full_path, encoding='latin1')
有用的答案列表:
关于python - 如何解决python 'utf-8'错误?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44845573/