我在 Excel 中有一个大表格(超过 150k 行),我正尝试根据一些初步可用信息填写该表格。我将在下面发布我当前的表结构和期望的结果,但作为我的项目的大纲:我有三个主要数据列,第四列可能有用,具体取决于推荐的方法。现有数据标识了一个组 ID 列、一个列开始年、一个列结束年和一个事件总年数列(简单地从结束年减去开始年得出)。现有的数据范围源自单个成员记录的行,但这些 ID 已被删除。使用这些数据,我的最终目标是找出每年的平均团队规模。我有很多工具来解决这个问题,它最终会出现在 MySQL 中。在那之前,我计划尝试从中提取一些统计数据,但同样,目标是逐年找到平均组大小(基于该组成员数量的大小) 能够绘制过去 100 年的平均大小。我的数据如下:
| A | B | C | D |
| ID | Start Year | End Year | Years Active |
1 | 101 | 1967 | 1975 | 7 |
2 | 101 | 1957 | 1965 | 7 |
3 | 125 | 1960 | 1975 | 15 |
4 | 136 | 1905 | 1908 | 3 |
5 | 222 | 1964 | 1975 | 7 |
6 | 121 | 1964 | 1975 | 7 |
7 | 102 | 1952 | 1975 | 7 |
8 | 306 | 1952 | 1975 | 7 |
9 | 306 | 1972 | 1975 | 7 |
10| 172 | 1967 | 1971 | 4 |
11| 411 | 1947 | 1951 | 4 |
12| 411 | 1946 | 1950 | 4 |
13| 411 | 1946 | 1950 | 4 |
14| 411 | 1946 | 1950 | 4 |
15| 411 | 1946 | 1950 | 4 |
16| 172 | 1945 | 1949 | 4 |
17| 172 | 1963 | 1967 | 4 |
18| 301 | 1948 | 1952 | 4 |
19| 301 | 1948 | 1952 | 4 |
20| 301 | 1972 | 1976 | 4 |
上面的表示是我的数据目前在 Excel 中的显示方式,减少到 150,784 行。我目前的路径让我认为我需要能够分解出开始年份和结束年份之间的日期,以了解哪个成员在哪一年活跃,以及哪个组 ID。从那以后,我知道我可以管理很长的路要走一些小计来弄清楚我需要什么,但我想知道是否有人可以想到一个公式模式或宏来使这个任务稍微减少一些不可能完成的任务。我觉得我迷失在多轴方法中,这似乎需要避免每年都这样做(完整数据集为 1899-2015)。我希望我在凝视森林时错过了树木,并且有一个明显的解决方案/方法可以采取,但是您可以提供的任何建议或帮助将非常感激。预先感谢那些做出贡献的人!
最佳答案
也许扩展你的数据,比如第 1 行中的年份(从 E1 中的 1899
开始)和 E2 等:
=--AND($B2<=E$1,E$1<=$C2)
这会产生一个非常大的矩阵,但可能会使进一步的处理相对容易。将导致二进制输出的公式转换为值,处理时间应该不是什么大问题。
关于mysql - 根据数字范围自动填写大型数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33327399/