python - DatetimeIndex 和 Timestamp 之间的 Pandas 工作日数

标签 python pandas

这与问题 here 非常相似但我想知道 pandas 中是否有一种干净的方法可以让工作日知道 TimedeltaIndex?最终,我试图获取 DatetimeIndex 和时间戳之间的工作日数(无假日日历)。根据引用的问题,这样的事情可行

import pandas as pd
import numpy as np
drg = pd.date_range('2015-07-31', '2015-08-05', freq='B')
A = [d.date() for d in drg]
B = pd.Timestamp('2015-08-05', 'B').date()
np.busday_count(A, B)

给出

array([3, 2, 1, 0], dtype=int64)

但这似乎有点笨拙。如果我尝试类似的东西

drg - pd.Timestamp('2015-08-05', 'B')

我得到一个 TimedeltaIndex,但工作日频率下降了

TimedeltaIndex(['-5 days', '-2 days', '-1 days', '0 days'], dtype='timedelta64[ns]', freq=None)

只是想知道是否有更优雅的方法来解决这个问题。

最佳答案

TimedeltaIndexes 表示固定的时间跨度。它们可以添加到 Pandas 时间戳以按固定数量递增。他们的行为从不依赖于时间戳是否是工作日。 TimedeltaIndex 本身从不了解工作日。

由于最终目标是计算 DatetimeIndex 和 Timestamp 之间的天数,因此我会从另一个方向着眼,而不是转换为 TimedeltaIndex。


不幸的是,日期计算相当复杂,因此出现了一些数据结构来处理它们——Python datetime.dates, datetime.datetimes, Pandas 时间戳,NumPy datetime64

他们各有长处,但没有一个能面面俱到。至 利用他们的优势,有时需要在两者之间进行转换 这些类型。

要使用 np.busday_count,您需要将 DatetimeIndex 和 Timestamp 转换为 某种类型的 np.busday_count 理解。你所谓的笨拙就是代码 需要转换类型。假设我们想使用 np.busday_count,没有办法解决这个问题——而且我知道没有比 np.busday_count 更好的工具来完成这项工作了。

所以,虽然我认为没有更简洁的方法来计算工作日 与您提出的方法相比,还有一种性能更高的方法: 转换为 datetime64[D] 而不是 Python datetime.date 对象:

import pandas as pd
import numpy as np
drg = pd.date_range('2000-07-31', '2015-08-05', freq='B')
timestamp = pd.Timestamp('2015-08-05', 'B')

def using_astype(drg, timestamp):
    A = drg.values.astype('<M8[D]')
    B = timestamp.asm8.astype('<M8[D]')
    return np.busday_count(A, B)

def using_datetimes(drg, timestamp):
    A = [d.date() for d in drg]
    B = pd.Timestamp('2015-08-05', 'B').date()
    return np.busday_count(A, B)

对于上面的示例(其中 len(drg) 接近 4000),这要快 100 倍以上:

In [88]: %timeit using_astype(drg, timestamp)
10000 loops, best of 3: 95.4 µs per loop

In [89]: %timeit using_datetimes(drg, timestamp)
100 loops, best of 3: 10.3 ms per loop

np.busday_count 无论如何都会将其输入转换为 datetime64[D],因此避免了这种与 datetime.date 之间的额外转换效率更高。

关于python - DatetimeIndex 和 Timestamp 之间的 Pandas 工作日数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31841487/

相关文章:

python - Pandas :在 Dataframe 子集上使用 iterrows

pandas - 如何根据分位数范围对列进行分类

python - 全新安装后 Django-admin 无法运行

python - 如何使用Python请求设置媒体类型?

python - 为什么 Python 线程模块中的类公开工厂函数而不是构造函数?

python - 识别具有公差的连续真值 block

python - 从具有相同文件名的两个列表中压缩项目?

python - 使用 groupby 和aggregate 在我似乎无法选择的第一个数据行顶部创建一个空行

python - 从 python 控制台应用程序到 django 作为 UI 最佳实践

python - 将形状 (n,) 的数组转换为形状 (n,1) 的 numpy 数组