我正在用 python 编写一个小应用程序的代码,我意识到当文件(txt、dat、csv ...)包含像 NAN 或“NAN”这样的缺失值时,我在导入数据函数中出错一些数据,而如果这些值被写为 nan 或 NaN,则通过导入数据没有问题。
例如
06.02.2011 00:10:00 NAN 43 30 2 37 42 30 2 34 41 19 4 302 5 306 8 69 2810 2811 2810 974 46 130
06.02.2011 00:20:00 36 41 28 2 36 42 27 2 35 42 26 3 295 8 298 8 69 2811 2811 2811 974 46 130
第一行的值 NAN 会引发错误,因为它被认为是数据中的字符串
虽然具有 nan 值的文件被认为只是一个缺失值,因此没有问题
06.02.2011 00:10:00 nan 43 30 2 37 42 30 2 34 41 19 4 302 5 306 8 69 2810 2811 2810 974 46 130
06.02.2011 00:20:00 36 41 28 2 36 42 27 2 35 42 26 3 295 8 298 8 69 2811 2811 2811 974 46 130
不知道要修改python中的哪个import函数或者库,才能包含读Nan这个词的所有可能性,避免出错。
最佳答案
您可以将您想要解释为NaN
的变量添加到pd.read_csv
的na_values
参数中:
df = pd.read_csv('your_file.csv', na_values=['NAN'])
您还可以在that 中找到一些信息。回答。
na-values 中的所有默认 NA
值:
The default NaN recognized values are
['-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A','N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan']
. Although a 0-length string '' is not included in the default NaN values list, it is still treated as a missing value.
关于python - NAN 值在 python 中被视为字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35503669/