目前,我正在从多个来源提取数据,并研究不同的机器学习方法,以使用这些数据集训练模型。展望 future ,我想提出最佳的数据存储计划。
目前,我使用的是普通的旧 CSV。然而,我有动力进行切换的原因之一是数据集中存在属于同一对象的相关字段。例如,如果我们存储有关多个餐厅的数据,我将为餐厅编号并为其设置多个字段。更具体地说,我将在 header 中包含一个相关的字段,即 restaurant_1_name
、restaurant_1_location
、restaurant_2_name
、restaurant_2_location
... 等等。此外,在特定情况下,某些数据点的餐厅数量会有所变化,因此我必须为 CSV 中的许多潜在字段创建空条目。此外,为了增加这种可变性,来自不同来源的数据将具有附加字段和缺失字段。
由于我们的数据具有面向对象的性质,我认为考虑另一种形式的数据存储可能会更好。作为最初的解决方案,我想到了 JSON,因为它允许可变数量的属性和将对象分组为字典列表。作为奖励,它是与 Python 字典和 pandas 模块(我正在使用的语言/模块)相当兼容的形式(但大多数数据格式也是如此)。
根据这些数据的性质,在 CSV、JSON、NoSQL(即 Mongo)、SQL(即 Postgres、MySQL)等选项中选择最可行的数据方法的最佳实践和方法是什么?考虑到数据源/点之间的可变性以及数据的客观性质?此外,是否值得将数据合并为一种格式,还是按数据源将其分开?
最佳答案
我建议使用 mongo,因为它足够灵活,它允许您存储非结构化数据,并且查询起来会容易得多。国际海事组织
关于mysql - 出于机器学习目的存储多个来源的数据的最佳实践,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44679917/