python - 这是在 Python 中使用 pandas 的好例子吗?

标签 python pandas summarization

我正在Python中对MSSQL进行数据库调用(我在Linux上)。 最终让所有部门完成此操作后,我的调用通常每次拉取都会运行大约 1,000,000 条记录。 (数据库详细说明了一个问题,遇到的城市以及解决方案)

记录集看起来像这样......(我只包括相关列)

Description, City, Solution
Won't Start, Denver, Replace Spark Plugs
Won't Start, Chicago, Add Gas
Light Out, Denver, Replace Bulb
Flat Tire, New York, Change Tire
...
...

我需要做的是对独特的描述进行计数,并在每个描述下对独特的城市进行计数,并在城市下方对解决方案进行独特的计数。

我是 Python 的新手(但我越实现它就越喜欢它),在过去使用其他语言时,我可能会将整个记录集导出到 SQLite,然后使用标准 SQL 进行汇总。

这似乎是一个渴望 pandas 解决方案的解决方案,但由于我仍在学习 Python,所以我对此类操作的最佳工具缺乏了解。

是否有任何 Pandas 人可以参与这个话题,甚至可能为我指出正确的方向? -JW

最佳答案

如果不知道您的数据(类型等)是什么样子,我就无法提供代码示例。但我认为使用 set 会更好。为此,因为您只需要一些唯一数据。您的计数只是设定的长度。

为此,集合将比 pandas 更快。

关于python - 这是在 Python 中使用 pandas 的好例子吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33789876/

相关文章:

python-2.7 - 统一码编码错误 : 'ascii' codec can't encode characters in position 62-11168: ordinal not in range(128)

python - Python 中的异步字符串连接

python - 将 lambda 函数应用于 pandas 数据框 - 返回索引但不返回值?

python - 根据索引从 Pandas 系列列表中提取到另一个

python - key 错误 : 'Requested level (date) does not match index name (None)'

python - 'str.contains' 不返回数据框中的值

nlp - LexRank总结算法

r - 三维数组的边际总结

python - 如何创建具有格式化日期的稀疏列

python - 在 dask 中混洗数据