python - 从 pandas 大数据集中获取犯罪 'count'

标签 python pandas loops bigdata

这是一个相当广泛的问题,因为我无法复制我尝试过的所有不同的东西。来自纽约警察局犯罪数据集:https://data.cityofnewyork.us/Public-Safety/NYPD-Complaint-Data-Historic/qgea-i56i

我正在尝试迭代 CMPLNT_FR_DT 行(这是一个字符串,并且无法转换为 DateTime 对象)

创建一个数据框并用值填充它,使其如下所示:

[Date]                        [Borough]              [Crime Count]       
01-01-2014
...

...

...

12-31-2014

因此示例行如下所示:

05-23-2014   QUEENS     45  

并表示,2014 年 5 月 23 日,皇后区发生了 45 起犯罪事件。

我已经腌制了数据集以加快处理时间。我正在使用 python pandas 库。我的问题是,无论我如何努力获取犯罪计数,我似乎都无法迭代 CMPLNT_FR_DT。我也无法使用 set_value 函数将 NYPD_Historic 数据帧中的值设置为新数据帧。此外,即使尝试使用 .iterrows() 计算行政区事件也会产生“只能使用 MultiIndex 的元组索引”错误。很感谢任何形式的帮助!

最佳答案

看来现在是使用 groupby 方法的好时机。您可以实现 df.groupby(['CMPLNT_FR_DT', 'Borough']).count() ,这将为您提供一个新的数据框,其中包含具有相同日期和行政区的所有实例的计数,无论日期的格式如何,只要它们都是相同的数据类型。

作为一个额外的好处,这比迭代整个数据框要快得多。

关于python - 从 pandas 大数据集中获取犯罪 'count',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47601533/

相关文章:

Java switch 语句要求输入两次

loops - 与 Maxima 的 For 循环

python - 如何将字典存储为单独的文件,并在 python 脚本中读取文件以使用变量

python - 如何仅通过子目录名称查找特定深层子目录的路径?

Python:在另一个数据框的标题中查找值并替换/映射相应的值

python - 如何将表中特定列的每一行的长度与支持表中的特定值相对应,并在满足条件时创建标志?

python - 按字典中键的值合并两个字典列表

python - Image.fromarray 中的 "None"模式是什么意思?

python - 将数字范围转换为顺序范围

python - 使用字典和正则表达式重命名列名