我对 MLK Day Holiday 做出了自己的定义,该定义不遵循首次观察假期的时间,而是坚持 NYSE 首次观察假期的时间。纽约证券交易所于 1998 年 1 月首次庆祝 MLK 日。
当向 Holiday 询问日期之间假期发生的那几天时,它在大多数情况下工作正常,当 MLK 日期不在请求的范围内时返回一个空集,并返回适当的日期。对于假期的 start_date
之前的日期范围,它会适本地返回空集,直到我们到达 1995 年左右,然后失败。我不明白为什么它会失败,而不是在其他情况下,当空集是正确答案时。
注意:仍然卡在 Pandas 0.22.0 上。 Python3
import pandas as pd
from datetime import datetime
from dateutil.relativedelta import MO
from pandas.tseries.holiday import Holiday
__author__ = 'eb'
mlk_rule = Holiday('MLK Day (NYSE Observed)',
start_date=datetime(1998, 1, 1), month=1, day=1,
offset=pd.DateOffset(weekday=MO(3)))
start = pd.to_datetime('1999-01-17')
end = pd.to_datetime('1999-05-01')
finish = pd.to_datetime('1980-01-01')
while start > finish:
print(f"{start} - {end}:")
try:
dates = mlk_rule.dates(start, end, return_name=True)
except Exception as e:
print("\t****** Fail *******")
print(f"\t{e}")
break
print(f"\t{dates}")
start = start - pd.DateOffset(years=1)
end = end - pd.DateOffset(years=1)
运行时,结果为:
1999-01-17 00:00:00 - 1999-05-01 00:00:00:
1999-01-18 MLK Day (NYSE Observed)
Freq: 52W-MON, dtype: object
1998-01-17 00:00:00 - 1998-05-01 00:00:00:
1998-01-19 MLK Day (NYSE Observed)
Freq: 52W-MON, dtype: object
1997-01-17 00:00:00 - 1997-05-01 00:00:00:
Series([], dtype: object)
1996-01-17 00:00:00 - 1996-05-01 00:00:00:
Series([], dtype: object)
1995-01-17 00:00:00 - 1995-05-01 00:00:00:
****** Fail *******
Must provide freq argument if no data is supplied
1995 年发生了什么导致它失败,而不是在前几年的同一时期发生?
最佳答案
答案:在 Holiday
类中,dates()
方法用于
收集请求日期范围内的有效假期列表。在
为了确保这种情况正确发生,实现收集
从请求日期前一年到后一年的所有假期
通过内部 _reference_dates()
方法的范围。在这个方法中,
如果接收 Holiday
实例有内部开始或结束日期,
它使用该日期作为要检查的范围的开始或结束
而不是传入的请求范围,即使请求的日期
范围早于或超过规则的开始或结束日期。
现有的实现错误地假设可以将有效范围限制在其必须准确识别存在哪些假期的有效范围内。作为日历中一组规则的一部分,对于 Holiday
来说,确定假期不存在的地方和有假期的地方一样重要。 NULL 设置响应是 Holiday
类的一个重要功能。
例如,在需要识别金融市场何时开市或休市的交易日日历中,日历可能需要准确识别在 100 年的历史中市场休市的日子。在这段历史的一小部分时间里,市场仅在 MLK 日休市。当询问 MLK start_date
[1] 之前的开放日或假期时,包含上述构造的 MLK 假期的日历会引发错误。
为了解决这个问题,我重新实现了 _reference_dates()
方法
自定义 Holiday 子类以确保在请求日期时
范围在 start_date
之前或 end_date
之后延伸
假期规则,它使用实际请求的范围来构建
引用日期来自内部的请求,而不是受内部请求的约束
开始和结束日期。
这是我正在使用的实现。
class MLKHoliday(Holiday):
def __init__(self):
super().__init__('MLK Day (NYSE Observed)',
start_date=datetime(1998, 1, 1), month=1, day=1,
offset=pd.DateOffset(weekday=MO(3)))
def _reference_dates(self, start_date, end_date):
"""
Get reference dates for the holiday.
Return reference dates for the holiday also returning the year
prior to the start_date and year following the end_date. This ensures
that any offsets to be applied will yield the holidays within
the passed in dates.
"""
if self.start_date and start_date and start_date >= self.start_date:
start_date = self.start_date.tz_localize(start_date.tz)
if self.end_date and end_date and end_date <= self.end_date:
end_date = self.end_date.tz_localize(end_date.tz)
year_offset = pd.DateOffset(years=1)
reference_start_date = pd.Timestamp(
datetime(start_date.year - 1, self.month, self.day))
reference_end_date = pd.Timestamp(
datetime(end_date.year + 1, self.month, self.day))
# Don't process unnecessary holidays
dates = pd.DatetimeIndex(start=reference_start_date,
end=reference_end_date,
freq=year_offset, tz=start_date.tz)
return dates
有谁知道这个问题是否已在更新版本的 pandas 中修复?
[1] 注意:正如在原始问题中构建的那样,mlk_rule
实际上不会无法为 dates()
调用提供 NULL 集,只是在一个范围内在 start_date
之前,但实际上会在此之前一年左右开始抛出异常。这是因为通过 _reference_dates()
将日期范围在每个方向上延长一年来减轻关于不需要正确的 NULL 集响应的错误假设。
关于Python3 Panda's Holiday 无法找到过去任意时期的日期,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56193488/