我将一个文件读入 pandas 数据帧,其中日期的格式各不相同:
美国人:
YYYY-MM-DD
或欧洲:
DD.MM.YYYY
它们以字符串形式出现。我想将它们全部格式化为日期对象,所以 pandas.Series.dt
可以使用它们,并且最好采用第二种格式 ( DD.MM.YYYY
)。
pandas.Series.dt
对一栏中的两种不同拼写感到困惑。
最佳答案
使用to_datetime
分别使用两种格式,因此如果格式不匹配,则会获取缺失值,因此对于新列,请使用 Series.fillna
:
df = pd.DataFrame({'date': ['2000-01-12', '2015-01-23', '20.12.2015', '31.12.2009']})
print (df)
date
0 2000-01-12
1 2015-01-23
2 20.12.2015
3 31.12.2009
date1 = pd.to_datetime(df['date'], errors='coerce', format='%Y-%m-%d')
date2 = pd.to_datetime(df['date'], errors='coerce', format='%d.%m.%Y')
df['date'] = date1.fillna(date2)
print (df)
date
0 2000-01-12
1 2015-01-23
2 2015-12-20
3 2009-12-31
and ideally have them in the second format
python/pandas 中日期时间的格式默认为 YYYY-MM-DD
,如果需要自定义格式也是可以的,但值会转换为字符串,因此 datetimelike 函数失败:
df['date'] = df['date'].dt.strftime('%d.%m.%Y')
print (df)
date
0 12.01.2000
1 23.01.2015
2 20.12.2015
3 31.12.2009
print (type(df.loc[0, 'date']))
<class 'str'>
关于python - 在 pandas 中使用混合日期时间格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60390709/