csv - 为机器学习提供数据的替代方法(使用 CSV 文件除外)

我有一个与现实世界中的机器学习应用相关的问题。这听起来可能很愚蠢，哈哈。

我自学机器学习已经有一段时间了，大部分练习都是使用 csv 文件作为数据源(经过处理的和原始的)。我想问除了导入csv文件为机器学习提供数据通道/提供数据之外，还有其他方法吗？

示例:实时流式传输 Facebook/Twitter 实时推送数据以进行机器学习，而不是收集旧数据并将其存储到 CSV 文件中。

最佳答案

数据源可以是任何东西。通常，它以 CSV 或 JSON 文件形式提供。但在现实世界中，假设您有一个网站，例如 Twitter，正如您所提到的，您会将数据存储在理性数据库(例如 SQL 数据库)中，对于某些数据，您会将它们放入一个 in -内存缓存。

您基本上可以利用这两者来检索数据并处理它。这里的问题是，当您有太多数据无法放入内存时，您实际上无法只查询所有内容并处理它，在这种情况下，您将利用一些智能算法来处理 block 中的数据。

某些数据库(例如 SQL)的好处是它们为您提供了一组函数，您可以直接在 SQL 脚本中调用这些函数来有效地计算某些数据。例如，您可以使用 SUM() 函数 SQL 获取整个表中某一列的总和，从而实现高效且轻松的数据操作

关于csv - 为机器学习提供数据的替代方法(使用 CSV 文件除外)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44986588/

相关文章：

Azure ML 预测保持不变