sql - 合并两个 CSV 并整理数据

标签 sql excel powerbi data-manipulation alteryx

我有两个 CSV 文件,第一个如下:

书1:

ID,TITLE,SUBJECT
0001,BLAH,OIL
0002,BLAH,HAMSTER
0003,BLAH,HAMSTER
0004,BLAH,PLANETS
0005,BLAH,JELLO
0006,BLAH,OIL
0007,BLAH,HAMSTER
0008,BLAH,JELLO
0009,BLAH,JELLO
0010,BLAH,HAMSTER
0011,BLAH,OIL
0012,BLAH,OIL
0013,BLAH,OIL
0014,BLAH,JELLO
0015,BLAH,JELLO
0016,BLAH,HAMSTER
0017,BLAH,PLANETS
0018,BLAH,PLANETS
0019,BLAH,HAMSTER
0020,BLAH,HAMSTER

然后是第二个 CSV,其中包含与第一个列表关联的项目,ID 是两者之间的公共(public)属性。

书2:

ID,ITEM
0001,PURSE
0001,STEAM
0001,SEASHELL
0002,TRUMPET
0002,TRAMPOLINE
0003,PURSE
0003,DOLPHIN
0003,ENVELOPE
0004,SEASHELL
0004,SERPENT
0004,TRUMPET
0005,CAR
0005,NOODLE
0006,CANNONBALL
0006,NOODLE
0006,ORANGE
0006,SEASHELL
0007,CREAM
0007,CANNONBALL
0007,GUM
0008,SERPENT
0008,NOODLE
0008,CAR
0009,CANNONBALL
0009,SERPENT
0009,GRAPE
0010,SERPENT
0010,CAR
0010,TAPE
0011,CANNONBALL
0011,GRAPE
0012,ORANGE
0012,GUM
0012,SEASHELL
0013,NOODLE
0013,CAR
0014,STICK
0014,ORANGE
0015,GUN
0015,GRAPE
0015,STICK
0016,BASEBALL
0016,SEASHELL
0017,CANNONBALL
0017,ORANGE
0017,TRUMPET
0018,GUM
0018,STICK
0018,GRAPE
0018,CAR
0019,CANNONBALL
0019,TRUMPET
0019,ORANGE
0020,TRUMPET
0020,CHERRY
0020,ORANGE
0020,GUM

真实的数据集有数百万条记录,所以对于我的简单示例,我提前表示歉意。

我需要解决的问题是以某种方式合并和整理数据,这样我就可以看到哪些项目分组最常一起出现在同一 ID 上。 (例如GRAPE、GUM、SEASHELL一起出现340次,ORANGE和STICK一起出现89次,等等...)

然后我需要看看按主题分组时常见外观的一般结果是否有任何变化/偏差。

我熟悉的工具是 Excel 和 SQL,但我也可以使用 PowerBI 和 Alteryx。

完全披露:不是家庭作业,也不是工作,而是一个志愿者项目,因此我不熟悉这种数据操作。

提前致谢。

最佳答案

Alteryx 解决方案:

  1. 将两个 .csv 文件拖到 Canvas 上(在我的图片中显示为 book1.csv 和 book2.csv;Alteryx 将为您创建“输入”工具。
  2. 拖动“连接”工具并将两个 .csv 文件连接到其输入;选择“ID”作为连接字段;取消选择“Right_ID”作为输出,因为它只是“ID”的重复
  3. 拖动“摘要”工具并将连接工具的输出连接到摘要工具的输入;选择所有三个输出并添加为“分组依据”...然后添加带有“计数”的 ID 列
  4. 拖动浏览工具并将摘要的输出连接到浏览工具的输入。
  5. 运行工作流程

之后,单击浏览工具,您应该看到我的屏幕截图中所看到的内容:(仅显示输出的前十行):

enter image description here

关于sql - 合并两个 CSV 并整理数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50033645/

相关文章:

sql - JOIN 两个 SELECT 语句结果

mysql - "Invalid use of group function"未使用组功能

vba - 用于保护工作表并允许插入行的宏

powerbi - Power BI 中显示相同值的所有行和总行数

sql - 检索前几个月的数据

mysql - 连续 SQL 到一个点

excel - Excel 单元格中的自动调整和 minHeight

VBA:使用字符串常量指定范围

reporting-services - 无法将报表上传到 Power BI 报表服务器

powerbi - Power BI 刷新 token 可用性