python - Pandas 将 ISO 字符串转换为 datetime64

标签 python datetime pandas

我希望将大约 10-20M ISO 日期时间字符串以微秒精度快速转换为 datetime64,以用作 pandas 中的 DataFrame 索引。

我使用的是 pandas 0.9,并尝试了 git 上建议的解决方案,但我发现它需要 20 到 30 分钟,或者永远不会完成。

我想我已经找到了问题所在。比较这两者的速度:

rng = date_range('1/1/2000', periods=2000000, freq='ms')
strings = [x.strftime('%Y-%m-%d %H:%M:%S.%f') for x in rng]
timeit to_datetime(strings)

在我的笔记本电脑上,大约 300 毫秒。

rng = date_range('1/1/2000', periods=2000000, freq='ms')
strings = [x.strftime('%Y%m%dT%H%M%S.%f') for x in rng]
timeit to_datetime(strings)

在我的笔记本电脑上,永远和一天。

我现在可能只是更改生成时间戳的 C++ 代码,将它们放在更冗长的 ISO 格式中,因为遍历和修复数千万个邮票的格式可能非常慢......

最佳答案

快速解析器代码仅处理带有破折号和冒号的标准 ISO-8601——正如您所见,当字符串格式正确时,它的速度非常快。如果可以说服您,代码在 GitHub 上,并且肯定可以改进以处理更多情况(最好不要过多降低标准格式的速度)。

作为部分令人满意的解决方法,您可以使用 datetime.strptime 将字符串转换为 datetime.datetime,然后将该结果传递给 to_datetime :

In [4]: paste
rng = date_range('1/1/2000', periods=2000000, freq='ms')
strings = [x.strftime('%Y%m%dT%H%M%S.%f') for x in rng]

## -- End pasted text --

In [5]: iso_strings = [x.strftime('%Y-%m-%d %H:%M:%S.%f') for x in rng]

In [6]: %timeit result = to_datetime(iso_strings)
1 loops, best of 3: 479 ms per loop

In [7]: f = lambda x: datetime.strptime(x, '%Y%m%dT%H%M%S.%f')

In [8]: f(strings[0])
Out[8]: datetime.datetime(2000, 1, 1, 0, 0)

In [9]: %time result = to_datetime(map(f, strings))
CPU times: user 48.47 s, sys: 0.01 s, total: 48.48 s
Wall time: 48.54 s

它有 100 倍的不同,但比慢 1000+% 要好得多。我敢打赌 to_datetime 可以改进为使用 strptime 的 C 版本,这样速度会快得多。我想留给读者练习

某天的待办事项:http://github.com/pydata/pandas/issues/2213

关于python - Pandas 将 ISO 字符串转换为 datetime64,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13133458/

相关文章:

Python Json解码数组到字符串

java - 日期格式返回错误的日期

vb.net - mscorlib.dll-DateTime中发生“System.FormatException”

python - 如何在 Pyspark 中标准化和创建相似度矩阵?

python - 在 Python Pandas 中格式化字符串数字

python - 如何更改 Altair boxplot 信息框以显示均值而不是中位数?

python - 将 Python 字典转换为列表列表

python - 哪种 Python 2.x DHT 实现最容易移植到 Python 3.x?

python - numpy : Grouping/binning values based on associations

python - 将天数添加到数据框中的日期