csv - 为机器学习提供数据的替代方法(使用 CSV 文件除外)

标签 csv machine-learning machine-learning-model

我有一个与现实世界中的机器学习应用相关的问题。这听起来可能很愚蠢,哈哈。

我自学机器学习已经有一段时间了,大部分练习都是使用 csv 文件作为数据源(经过处理的和原始的)。我想问除了导入csv文件为机器学习提供数据通道/提供数据之外,还有其他方法吗?

示例:实时流式传输 Facebook/Twitter 实时推送数据以进行机器学习,而不是收集旧数据并将其存储到 CSV 文件中。

最佳答案

数据源可以是任何东西。通常,它以 CSV 或 JSON 文件形式提供。但在现实世界中,假设您有一个网站,例如 Twitter,正如您所提到的,您会将数据存储在理性数据库(例如 SQL 数据库)中,对于某些数据,您会将它们放入一个 in -内存缓存。

您基本上可以利用这两者来检索数据并处理它。这里的问题是,当您有太多数据无法放入内存时,您实际上无法只查询所有内容并处理它,在这种情况下,您将利用一些智能算法来处理 block 中的数据。

某些数据库(例如 SQL)的好处是它们为您提供了一组函数,您可以直接在 SQL 脚本中调用这些函数来有效地计算某些数据。例如,您可以使用 SUM() 函数 SQL 获取整个表中某一列的总和,从而实现高效且轻松的数据操作

关于csv - 为机器学习提供数据的替代方法(使用 CSV 文件除外),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44986588/

相关文章:

Azure ML 预测保持不变

python-2.7 - Python csv writer "AttributeError: __exit__"问题

java - 如何在java中获取csv文件的行索引

随机森林 : how to get 100%-Precision?

machine-learning - 使用 Keras 进行视频预测(时间序列)

tensorflow - 增强数据集真的会改善机器学习模型吗

machine-learning - 线性判别分析与朴素贝叶斯

python - 如何使用 OS 模块访问 CSV 文件

csv - Pyarrow read_csv 如何处理不同的文件编码?

python - 使用 tf.Variable() 和 tf.get_variable() 时的不同结果