python - 使用python对列表中的项目进行分类

标签 python list

目前,我在 Excel 中有一个包含 110,000 个捐赠者的列表。他们提供给我们的信息之一是他们的职业。我想将此列表浓缩为我定义的 10 或 20 个类别。

通常我会逐行处理这个问题,但由于我必须针对一年的数据执行此操作,所以我真的没有时间逐行处理超过 1,000,000 行的数据。

有没有办法定义我的 10 或 20 个类别,然后让 python 从那里进行排序?

更新:

数据格式不正确。人们在线或在纸条上自行填写一个字段,然后将其邮寄给数据处理公司。有很大的差异。首席执行官、首席执行官、行政办公室,这样的例子不胜枚举。

我使用了 SORT UNIQ 命令,发现我的列表有大约 13,000 个不同的职业。

最佳答案

我假设数据是嘈杂的,因为它可以是任何东西,写入。这里的主要困难是如何定义输入数据和类别之间的映射,即首先,将涉及查看数据。

我建议你看看你有什么,并制定一个从输入职业到类别的映射列表。然后,您几乎可以使用任何工具(如果您使用的是 excel,请坚持使用 excel)将该映射应用于每一行。有些行不属于任何类别。您应该查看它们,并弄清楚这是因为您的映射不充分(例如,您没有考虑如何与 vert 打交道),还是因为数据嘈杂。如果是噪音,您可以手动处理剩余部分,或者尝试使用其他一些技术对数据进行分类,例如正则表达式或某种自然语言处理库。

一旦您弄清楚您的问题案例是什么,请回来向我们询问它们,并提供示例数据和您一直在使用的代码。

如果您甚至无法迈出弄清楚如何运行映射的第一步,请进行一些研究,尝试写一些东西,然后回来提出一个具体的问题。

关于python - 使用python对列表中的项目进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12711743/

相关文章:

python - 如何将 'dictionary' 的列读入 pandas

Python文字游戏。第一个单词的最后一个字母 == 第二个单词的第一个字母。找到最长可能的单词序列

Python 将 Json 行加载到 Pandas Dataframe

R将列表列表转换为数据框

java - 如何在redhat服务中运行python包装的java程序

python - 如何从登录页面传入用户名并使其显示在侧边栏上

python - 循环遍历一组 Python 数字或一组字母是否更快?

Python:在多个列表中查找相同的项目

java - 对象列表中元素的相等性检查

android - 所有具有特征的 Android 设备列表