python - 随机日期和月份,但保留年份和时间间隔

标签 python python-3.x pandas dataframe datetime

我正在处理多个文件中的大数据。这是一个更大问题的一部分,但为了简单起见,我将其分成几个部分。

文件 1 存储在 df1 中,文件 2 存储在 df2 中。我有大约 12 个文件,每个文件有 300 万条记录..

df1 和 df2 都是相关的,但存储为单独的文件。

df1 = pd.DataFrame({'person_id': [1, 2, 3, 4, 5],
                        'date_birth': ['12/30/1961', '05/29/1967', '02/03/1957', '7/27/1959', '01/13/1971'],
                        'date_death': ['07/23/2017','05/29/2017','02/03/2015',np.nan,np.nan]})
df1['date_birth'] = pd.to_datetime(df1['date_birth'])
df1['date_death'] = pd.to_datetime(df1['date_death'])
df1['diff_birth_death'] = df1['date_death'] - df1['date_birth']
df1['diff_birth_death']=df1['diff_birth_death']/np.timedelta64(1,'D')


df2 = pd.DataFrame({'person_id': [1,1,1,2,3],
                    'visit_id':['A1','A2','A3','B1','B2'],
                    'diag_start': ['01/01/2012', '02/25/2017', '02/03/2015', '07/27/2016', '01/13/2011'],
                    'diag_end': ['05/03/2012','05/29/2017','03/03/2015','08/15/2016','02/13/2011']})
df2['diag_start'] = pd.to_datetime(df2['diag_start'])
df2['diag_end'] = pd.to_datetime(df2['diag_end'])
df2['diff_birth_diag_start'] = df2['diag_start'] - df1['date_birth']
df2['diff_birth_diag_end'] = df2['diag_end'] - df1['date_birth']
df2['diff_birth_diag_start']=df2['diff_birth_diag_start']/np.timedelta64(1,'D')
df2['diff_birth_diag_end']=df2['diff_birth_diag_end']/np.timedelta64(1,'D')

我想做的是

1) 随机化/移动日期月份值,但保留年份部分和事件之间的时间差 (出生和死亡之间、出生和 diag_start 之间、出生和 diag_end 之间)

2)如何找到满足上述条件的每个主题的日期偏移值(添加/减去/随机化的天数)

在下面的示例中,我手动添加了以下偏移量。

person_id 1 = -10 days (incorrect value. you will see below as to why it's incorrect)
person_id 2 = 10 days
person_id 3 = 100 days
person_id 4 = 20 days
person_id 5 = 125 days

我希望我的输出如下所示

df1 - 全部正确 - 转移的日期和月份(保留年份和间隔)

enter image description here

df2 - 选择的偏移量不正确,导致年份发生变化。尽管间隔保持值已更改。

enter image description here

最佳答案

正如评论中所述,您想要的是在给定一些限制的情况下随机化两个 datetime 对象:

  1. 开始日期必须早于结束日期
  2. 随机化后开始日期和结束日期之间的时间间隔必须保持不变
  3. 开始年份和结束年份必须保持相同(例如 2000-01-01 不能变为 1999-12-31)

为了解决这个问题,我的想法是找到起始数据在不改变年份的情况下可能发生的变化范围,然后找到结束日期在不改变年份的情况下可能发生的变化范围,最后将它们相交以获得适用于两个日期的变化范围。此后,最终范围内的任何随机值都不会更改任何限制日期的年份,并将保持间隔不变。

我创建了一个实现此功能的函数。您向其传递开始和结束日期时间对象,它将返回一个元组,其中包含根据限制随机化的日期。

import datetime as dt
from random import random

def rand_date_diff_keep_year_and_interval(dt1, dt2):
    if dt1 > dt2:
        raise Exception("dt1 must be lesser than dt2")
    range1 = {
        "min": dt1.replace(month=1, day=1) - dt1,
        "max": dt1.replace(month=12, day=31) - dt1,
    }
    range2 = {
        "min": dt2.replace(month=1, day=1) - dt2,
        "max": dt2.replace(month=12, day=31) - dt2,
    }
    intersection = {
        "min": max(range1["min"], range2["min"]),
        "max": min(range1["max"], range2["max"]),
    }
    rand_change = random()*(intersection["max"] - intersection["min"]) + intersection["min"]
    return (dt1 + rand_change, dt2 + rand_change)

print(rand_date_diff_keep_year_and_interval(dt.datetime(2000, 1, 1), dt.datetime(2000, 12, 31)))
print(rand_date_diff_keep_year_and_interval(dt.datetime(2000, 5, 18), dt.datetime(2001, 8, 20)))

Pandas 解决方案

要使用 Pandas DataFrame,我们需要调整之前的代码以使用系列而不是单个日期时间对象。逻辑几乎保持不变,但现在我们可以说是“按系列”做所有事情。另外,我使用 numpy.random 生成一系列随机数,而不是只创建一个随机数并对所有行重复它......这样随机性会低很多。

import datetime as dt
import pandas as pd
import numpy.random as rnd

def series_rand_date_diff_keep_year_and_interval(sdt1, sdt2):
    if any(sdt1 > sdt2):
        raise Exception("dt1 must be lesser than dt2")
    range1 = {
        "min": sdt1.apply(lambda dt1: dt1.replace(month=1, day=1) - dt1),
        "max": sdt1.apply(lambda dt1: dt1.replace(month=12, day=31) - dt1),
    }
    range2 = {
        "min": sdt2.apply(lambda dt2: dt2.replace(month=1, day=1) - dt2),
        "max": sdt2.apply(lambda dt2: dt2.replace(month=12, day=31) - dt2),
    }
    intersection = {
        "min": pd.concat([range1["min"], range2["min"]], axis=1).max(axis=1),
        "max": pd.concat([range1["max"], range2["max"]], axis=1).min(axis=1),
    }
    rand_change = pd.Series(rnd.uniform(size=len(sdt1)))*(intersection["max"] - intersection["min"]) + intersection["min"]
    return (sdt1 + rand_change, sdt2 + rand_change)

df = pd.DataFrame([
        {"start": dt.datetime(2000, 1, 1), "end": dt.datetime(2000, 12, 31)},
        {"start": dt.datetime(2000, 5, 18), "end": dt.datetime(2001, 8, 20)},
    ])

df2 = pd.DataFrame(df)
df2["start"], df2["end"] = series_rand_date_diff_keep_year_and_interval(df["start"], df["end"])
print(df2.head())

多列 Pandas 解决方案

再看一下这个问题,事件序列中有很多列,所有列都代表日期,其中一些是 NaT 值(空日期)。如果我们希望应用相同的限制,并保持一系列事件中所有事件之间的相对距离,而不更改任何值的年份,并且还接受 NaT 列,我们必须更改一些内容。我们不列出更改,而是直接进入代码:

import datetime as dt
import pandas as pd
import numpy.random as rnd
import numpy as np
from functools import reduce

def manyseries_rand_date_diff_keep_year_and_interval(*sdts):
    ranges = list(map(
        lambda sdt:
            {
                "min": sdt.apply(lambda dt: dt.replace(month=1,  day=1 ) - dt),
                "max": sdt.apply(lambda dt: dt.replace(month=12, day=31) - dt),
            },
        sdts
        ))
    intersection = reduce(
        lambda range1, range2:
            {
                "min": pd.concat([range1["min"], range2["min"]], axis=1).max(axis=1),
                "max": pd.concat([range1["max"], range2["max"]], axis=1).min(axis=1),
            },
        ranges
        )
    rand_change = pd.Series(rnd.uniform(size=len(intersection["max"])))*(intersection["max"] - intersection["min"]) + intersection["min"]
    return list(map(lambda sdt: sdt + rand_change, sdts))

def setup_diffs(df1, df2):
    df1['diff_birth_death'] = df1['date_death'] - df1['date_birth']
    df1['diff_birth_death'] = df1['diff_birth_death']/np.timedelta64(1,'D')

    df2['diff_birth_diag_start'] = df2['diag_start'] - df1['date_birth']
    df2['diff_birth_diag_end'] = df2['diag_end'] - df1['date_birth']
    df2['diff_birth_diag_start'] = df2['diff_birth_diag_start']/np.timedelta64(1,'D')
    df2['diff_birth_diag_end'] = df2['diff_birth_diag_end']/np.timedelta64(1,'D')

df1 = pd.DataFrame({'person_id': [1, 2, 3, 4, 5],
                        'date_birth': ['12/30/1961', '05/29/1967', '02/03/1957', '7/27/1959', '01/13/1971'],
                        'date_death': ['07/23/2017', '05/29/2017', '02/03/2015', np.nan,      np.nan]})
df1['date_birth'] = pd.to_datetime(df1['date_birth'])
df1['date_death'] = pd.to_datetime(df1['date_death'])

df2 = pd.DataFrame({'person_id': [1,1,1,2,3],
                    'visit_id':['A1','A2','A3','B1','B2'],
                    'diag_start': ['01/01/2012', '02/25/2017', '02/03/2015', '07/27/2016', '01/13/2011'],
                    'diag_end': ['05/03/2012','05/29/2017','03/03/2015','08/15/2016','02/13/2011']})
df2['diag_start'] = pd.to_datetime(df2['diag_start'])
df2['diag_end'] = pd.to_datetime(df2['diag_end'])
setup_diffs(df1, df2)

display(df1)
display(df2)

series_list = manyseries_rand_date_diff_keep_year_and_interval(
    df1['date_birth'], df1['date_death'], df2['diag_start'], df2['diag_end'])
df1['date_birth'], df1['date_death'], df2['diag_start'], df2['diag_end'] = series_list
setup_diffs(df1, df2)

display(df1)
display(df2)

这一次,我使用 Jupyter Notebook 来更好地可视化 DataFrame:

Final result showing the Jupyter Notebook visualization of the DataFrames

希望这有帮助!欢迎任何意见和建议。

关于python - 随机日期和月份,但保留年份和时间间隔,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62429091/

相关文章:

python - numpy 将切片 append 到二维数组以使其成为三维数组

python - 根据另一列中的值将值添加到 Pandas 数据框的一列

python - 在 Pandas 数据框中添加带有索引的空行

python - 如何从两个列表中查找匹配的部分项目

python - 从一个数据框中删除另一个数据框中存在的行

python - 在 Python 中使用列表理解来做类似于 zip() 的事情?

Python QueryFrame 返回 None,但 C++ 绑定(bind)有效

python - 根据条件设置具有相同编号的计数器或行

Python pathlib.Path - 如何获取与平台无关的文件分隔符作为字符串?

python - 如何使用变量来切片 Python 列表?