csv - 如何为 “big data”分析项目设置架构?

标签 csv hadoop bigdata

我和我的一个 friend 正在读大四,并将很快开始一个高级项目。我们有想法为此做一个数据分析和数据可视化项目。我们的项目涉及读取每2分钟更新一次的CSV文件,解析该数据,然后将其存储在数据库中。数据存储后,我们希望对其进行一些分析,并提供一个API,通过该API我们可以访问该数据以某种方式进行可视化。我们的最终目标是构建一个Android应用,以用户友好的格式显示CSV和分析中的某些原始数据。我与另一位CS Major进行了交谈,他解释说,我需要一些不同的服务器来完成此任务:一个用于存储,另一个用于分析,另外一个用于某种类型的队列,以确保在我们工作时不会发生麻烦进行抓取和分析。问题是,我真的不知道从哪里开始。我之前使用SQL数据库和PHP前端做了一些工作,但是使用多个服务器则没有做。我听说过可用于Hadoop等大数据项目的工具,但我不确定它适合什么地方。这样的项目,太棒了!

最佳答案

由于您对这些事情没有太多的经验,因此您可能希望查看Cloudera之类的项目。具体来说,他们的resources页面上有一组不错的视频和文章。

可靠信息的另一个来源(我个人使用)是通过单击堆栈溢出tag并选择votes选项。有关big data过多主题的许多好问题已经存在

关于csv - 如何为 “big data”分析项目设置架构?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32746059/

相关文章:

apache-spark - Spark + 写入 Hive 表 + 解决方法

hadoop - Hadoop-MapReduce集群中此数据存储库的大小不断增加

PowerShell:导入没有标题的 CSV 并删除部分重复行

excel - 使用 VBA 复制粘贴脚本比较两个 CSV 文档

python - 如何使用 train_test_split 在交叉验证中保持测试大小不变?

csv - Schema.ini 未在 csv 文件的“(双引号)之后提供数据

hadoop - 如何使用Apache Flume过滤多个源数据?

java - 在BloomFilter中添加键时出现NullPointerException

hadoop - Apache Kylin 容错

hadoop - lily solr hbase 索引器 : add indexer indexdemo-indexer. xml