我有一个与现实世界中的机器学习应用相关的问题。这听起来可能很愚蠢,哈哈。
我自学机器学习已经有一段时间了,大部分练习都是使用 csv 文件作为数据源(经过处理的和原始的)。我想问除了导入csv文件为机器学习提供数据通道/提供数据之外,还有其他方法吗?
示例:实时流式传输 Facebook/Twitter 实时推送数据以进行机器学习,而不是收集旧数据并将其存储到 CSV 文件中。
最佳答案
数据源可以是任何东西。通常,它以 CSV 或 JSON 文件形式提供。但在现实世界中,假设您有一个网站,例如 Twitter,正如您所提到的,您会将数据存储在理性数据库(例如 SQL 数据库)中,对于某些数据,您会将它们放入一个 in -内存缓存。
您基本上可以利用这两者来检索数据并处理它。这里的问题是,当您有太多数据无法放入内存时,您实际上无法只查询所有内容并处理它,在这种情况下,您将利用一些智能算法来处理 block 中的数据。
某些数据库(例如 SQL)的好处是它们为您提供了一组函数,您可以直接在 SQL 脚本中调用这些函数来有效地计算某些数据。例如,您可以使用 SUM()
函数 SQL 获取整个表中某一列的总和,从而实现高效且轻松的数据操作
关于csv - 为机器学习提供数据的替代方法(使用 CSV 文件除外),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44986588/