python - Pandas 在 `datetime` 或 `datetime` 合并到 `datetimeIndex`

标签 python pandas

目前我有两个代表 excel 电子表格的数据框。我希望加入日期相等的数据。这是一对多连接,因为一个电子表格有一个日期,然后我需要添加具有相同日期的多行数据

一个例子:

            A                  B
     date     data       date                 data
0    2015-0-1 ...     0  2015-0-1 to 2015-0-2 ...
1    2015-0-2 ...     1  2015-0-1 to 2015-0-2 ...

在这种情况下,A 的两行都将收到 B 的第 0 行和第 1 行,因为它们都在该范围内。

我试过用

df3 = pandas.merge(df2, df1, how='right', validate='1:m', left_on='Travel Date/Range', right_on='End')

完成此操作但收到此错误。

Traceback (most recent call last):
  File "<pyshell#61>", line 1, in <module>
    df3 = pandas.merge(df2, df1, how='right', validate='1:m', left_on='Travel Date/Range', right_on='End')
  File "C:\Users\M199449\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\core\reshape\merge.py", line 61, in merge
    validate=validate)
  File "C:\Users\M199449\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\core\reshape\merge.py", line 555, in __init__
    self._maybe_coerce_merge_keys()
  File "C:\Users\M199449\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\core\reshape\merge.py", line 990, in _maybe_coerce_merge_keys
    raise ValueError(msg)
ValueError: You are trying to merge on object and datetime64[ns] columns. If you wish to proceed you should use pd.concat

当然我可以根据需要添加更多信息

最佳答案

所以这是合并的选项:

假设您有两个 DataFrame:

import pandas as pd
df1 = pd.DataFrame({'date': ['2015-01-01', '2015-01-02', '2015-01-03'], 
                    'data': ['A', 'B', 'C']})
df2 = pd.DataFrame({'date': ['2015-01-01 to 2015-01-02', '2015-01-01 to 2015-01-02', '2015-01-02 to 2015-01-03'], 
                    'data': ['E', 'F', 'G']})

现在做一些清理以获取您需要的所有日期并确保它们是datetime

df1['date'] = pd.to_datetime(df1.date)

df2[['start', 'end']] = df2['date'].str.split(' to ', expand=True)
df2['start'] = pd.to_datetime(df2.start)
df2['end'] = pd.to_datetime(df2.end)
# No need for this anymore
df2 = df2.drop(columns='date')

现在将它们合并在一起。您将获得 99x10K 行。

df = df1.assign(dummy=1).merge(df2.assign(dummy=1), on='dummy').drop(columns='dummy')

然后子集落在范围之间的日期:

df[(df.date >= df.start) & (df.date <= df.end)]
#        date data_x data_y      start        end
#0 2015-01-01      A      E 2015-01-01 2015-01-02
#1 2015-01-01      A      F 2015-01-01 2015-01-02
#3 2015-01-02      B      E 2015-01-01 2015-01-02
#4 2015-01-02      B      F 2015-01-01 2015-01-02
#5 2015-01-02      B      G 2015-01-02 2015-01-03
#8 2015-01-03      C      G 2015-01-02 2015-01-03

例如,如果 df2 中的某些日期是单个日期,因为我们使用的是 .str.split,我们将得到 None第二次约会。然后只需使用 .loc 适本地设置它。

df2 = pd.DataFrame({'date': ['2015-01-01 to 2015-01-02', '2015-01-01 to 2015-01-02', '2015-01-02 to 2015-01-03',
                             '2015-01-03'], 
                    'data': ['E', 'F', 'G', 'H']})

df2[['start', 'end']] = df2['date'].str.split(' to ', expand=True)
df2.loc[df2.end.isnull(), 'end'] = df2.loc[df2.end.isnull(), 'start']
#  data      start        end
#0    E 2015-01-01 2015-01-02
#1    F 2015-01-01 2015-01-02
#2    G 2015-01-02 2015-01-03
#3    H 2015-01-03 2015-01-03

其余不变

关于python - Pandas 在 `datetime` 或 `datetime` 合并到 `datetimeIndex`,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51755268/

相关文章:

python - 无法在 Python 上使用 win32com 完全关闭 Excel

python - 如何将环境变量添加到 Django 项目中

python - Tensorflow NN 输入维度

python - Django 注释 json 字段中的特定键

python - "Stretch"数据帧并用零填充

python - 根据条件从两个数据帧中提取值

python - 使用 Pandas 的数据透视表的大数据

python - 将一个字符串变成另一个字符串所需的更改次数

python - 将 csv 文件读取到 pandas 失败

python - 根据条件用真实值填充数据框