python - 在 python 中处理大型数据池

标签 python large-data database

我正在从事一项旨在研究人们行为的学术项目。

该项目将分为三个部分:

  1. 一个程序,用于从一些远程源读取数据,并用它构建一个本地数据池。
  2. 用于验证此数据池并使其保持一致的程序
  3. 允许人们读取/操作数据的网络界面。

数据由一个人的列表组成,所有人都有一个 ID #,并具有几个特征:高度、体重、年龄……

我需要轻松地根据这些数据进行分组(例如:所有数据都具有给定的年龄或一定的高度范围)并且数据有几 TB 大(但可以减少为 2-3 gb 的较小子集)。

我对项目背后的理论知识有很强的背景,但我不是计算机科学家。我会 java、C 和 Matlab,现在我正在学习 python。

我想使用 python,因为它看起来很简单,并且大大减少了 Java 的冗长。问题是我想知道如何处理数据池。

我不是数据库专家,但我想我需要一个。你认为我应该使用什么工具?

请记住,目标是在数据集上实现非常高级的数学函数,因此我们希望降低源代码的复杂性。速度不是问题。

最佳答案

听起来可以从以下位置找到所需的主要功能:
pytables

scipy/numpy

关于python - 在 python 中处理大型数据池,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5529075/

相关文章:

python - 如何在Django单元测试中正确使用assertRaises?

sql - IDS 对单用户应用程序来说是一种过度杀戮吗?

python - 如何调用pandas的DataFrame列,传递抛出一个函数

Python BeautifulSoup,解析 XML

python - Cron 函数缺少参数

java - 无法在 java 中打印非常大的字符串(无论是在 Eclipse 中还是在 cmd 中)

php - 带有 "smart searching"的数据表大数据 json ,或者带有正则表达式的服务器端,或者更好的方法?

solr - Apache Solr 能否处理 TB 大数据

android sqlite 删除查询不工作

mysql - Perl 数据库交互