python - 按小时将日期时间对象排序为 Pandas 数据框,然后使用 Matplotlib 可视化为直方图

标签 python pandas matplotlib data-science data-analysis

我需要按小时将观看者排序为直方图。我有一些使用 Matplotlib 来执行此操作的经验,但我找不到按小时对日期进行排序的最实用方法。

首先我从一个 JSON 文件中读取数据,然后将两个相关的数据类型存储在一个 pandas Dataframe 中,如下所示:

data = pd.read_json('data/data.json')

session_duration = pd.to_datetime(data.session_duration, unit='s').dt.time
time = pd.to_datetime(data.time, format='%H:%M:%S').dt.time

viewers = []

for x, y in zip(time, session_duration):
    viewers.append({str(x):str(y)})

编辑:源文件看起来像这样,省略了不相关的部分。

{
    "time": "00:00:09",
    "session_duration": 91
},
{
    "time": "00:00:16",
    "session_duration": 29
},
{
    "time": "00:00:33",
    "session_duration": 102
},
{
    "time": "00:00:35",
    "session_duration": 203
}

请注意,session_duration 以秒为单位。

我必须区分两种类型的观众:

  • 那些在流中花费 <= 1 分钟的人
  • 那些在流中花费 >= 1 分钟的人

为此,我这样做:

import datetime
for element in viewers:
    for time, session_duration in element.items():
        if datetime.strptime(session_duration, '%H:%M:%S').time() >= datetime.strptime('00:01:00', '%H:%M:%S').time():
            viewers_more_than_1min.append(element)
        else:
            viewers_less_than_1min.append(element)

因此,我的值在这样的字典中:{session_duration:time} 其中,键是 session 结束的时间流,值是观看时间

[{'00:00:09': '00:01:31'},
 {'00:00:16': '00:00:29'},
 {'00:00:33': '00:01:42'},
 {'00:00:35': '00:03:23'},
 {'00:00:36': '00:00:32'},
 {'00:00:37': '00:04:47'},
 {'00:00:47': '00:00:42'},
 {'00:00:53': '00:00:44'},
 {'00:00:56': '00:00:28'},
 {'00:00:58': '00:01:17'},
 {'00:01:04': '00:01:16'},
 {'00:01:09': '00:00:46'},
 {'00:01:29': '00:01:07'},
 {'00:01:31': '00:01:02'},
 {'00:01:32': '00:01:01'},
 {'00:01:32': '00:00:36'},
 {'00:01:37': '00:03:03'},
 {'00:01:49': '00:00:57'},
 {'00:02:01': '00:02:15'},
 {'00:02:18': '00:01:16'}]

作为最后一步,我希望使用 Matplotlib 创建一个直方图,代表每小时来自上述两种观看者类型的每一种观看者计数。我假设它会是这样的:

import matplotlib.pyplot as plt
import datetime as dt
hours = [(dt.time(i).strftime('%H:00')) for i in range(24)]
plt.xlabel('Hour')
plt.ylabel('Viewer count')
plt.bar(hours, sorted_viewcount_byhour)

最佳答案

df = pd.read_json('data/data.json')

df['time'] = pd.to_datetime(df['time'])
#timedelta is a more appropriate data type for session_duration
df['session_duration'] = pd.to_timedelta(df['session_duration'], unit='s')

# Example filtering
df_short_duration = df[df['session_duration'].dt.total_seconds() <= 60]

# Example creating histogram
df_hist = df_short_duration.groupby(df['time'].dt.hour).count()
# Now just plot df_hist as a bar chart using matplotlib, might be something like plt.bar(df_hist.index, df_hist['count'])

关于python - 按小时将日期时间对象排序为 Pandas 数据框,然后使用 Matplotlib 可视化为直方图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56041988/

相关文章:

Python处理CSV文件真的很慢

python-3.x - 从列表创建多个绘图

matplotlib - Matplotlib 中的线段

python - 是否可以在 Jupyter notebook 中运行 pypy 内核?

python - `super(...)` 和 `return super(...)` 有什么区别?

python - 使用 boto 连接 SES 时欧盟区域不可用

Python Pandas 从 Groupby 中选择组的随机样本

python - Tensorflow 1.13.1 tf.data 将多个图像与单行映射在一起

python - 如何在 Python 中创建共现矩阵?

pandas - Seaborn:在热图上注释缺失值