database - 统计Linux服务器上的文件夹和文件结构

标签 database linux statistics data-analysis

我需要为存储在 Linux 网络共享上的文件生成统计信息,并且希望能够在网络共享上本地运行 shell 脚本或程序以生成具有以下属性的数据点:

路径(或相对路径)|文件名 |文件大小 |创建日期 |日期已更改 |访问日期

大约有 1-200 万个文件 (8TB),我想探索该数据集,以了解文件类型(由文件名和路径的组合确定)相对于文件总数和存储总量的组织和平衡。

问题:

  1. 遍历文件系统并获取此数据的有效方法是什么?

  2. 您建议使用哪种数据库来探索此类数据以及层次结构中不同级别的统计信息?

最佳答案

这就是我最终用来解决问题的方法:

  1. 使用 Linux 命令 findfstat 将数据集生成为纯文本文件。
  2. Python 的 pandasexifread 库用于丰富和分析数据集。

关于database - 统计Linux服务器上的文件夹和文件结构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19593562/

相关文章:

mysql - 多个数据库中表之间的关系

java - Hibernate继承

python - 将 Python 对象存储在数据库中以便于查询

c - 无法使用 tcpdump 捕获 IP 广播数据包

linux - Ubuntu 14.04 arbtt-stats 索引大错误

algorithm - 不规则间隔——在哪里划线?

mysql - 追随者/关注关系

c - 如何使用semget实现sem_open

python - 使用 Python 和 Rpy2 进行统计测试(Kolmogorov 和 T 测试)

matlab - 如何根据给定的 CDF 计算逆高斯分布?