python - 用于处理机器学习大型数据集的设计模式

标签 python design-patterns

我目前正在尝试从网站上抓取数据并从中构建一个大型(并且可能随着时间的推移而增长)数据集。我想知道在处理、保存和加载大型数据集时是否有任何好的做法可以采用。

更具体地说,当我要保存的数据集太大,无法存储在 RAM 中,然后一次性写入磁盘时,该怎么办?一次写一个数据点效率太低?有没有比一次写入中等大小的批处理更聪明的方法?

感谢您的宝贵时间!

最佳答案

当然,使用数据库。

您可能应该看看 MongoDB 或 elasticSearch,因为您存储的似乎是文档而不是关系数据。

https://www.mongodb.com/

https://www.elastic.co/

关于python - 用于处理机器学习大型数据集的设计模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45724363/

相关文章:

c - 引用 ANSI C 中的设计模式?

java - 将字段名称/类型作为参数传递给 Java 中的方法

python - 删除分层索引中的 Pandas 顶级列

python - 通过蓝牙将 Arduino 连接到 Python

html - 显示非常宽的表格的策略

java - java中的参数化适配器

c++ - 处理自定义分配器中没有默认构造函数

python - 如何使用 Celery 从 Python 代码动态添加/停止 worker

python - Django 嵌套事务和异常

python - 改进 __init__ ,其中 args 直接分配给成员