csv - 如何为 “big data”分析项目设置架构？

标签 csv hadoop bigdata

我和我的一个 friend 正在读大四，并将很快开始一个高级项目。我们有想法为此做一个数据分析和数据可视化项目。我们的项目涉及读取每2分钟更新一次的CSV文件，解析该数据，然后将其存储在数据库中。数据存储后，我们希望对其进行一些分析，并提供一个API，通过该API我们可以访问该数据以某种方式进行可视化。我们的最终目标是构建一个Android应用，以用户友好的格式显示CSV和分析中的某些原始数据。我与另一位CS Major进行了交谈，他解释说，我需要一些不同的服务器来完成此任务:一个用于存储，另一个用于分析，另外一个用于某种类型的队列，以确保在我们工作时不会发生麻烦进行抓取和分析。问题是，我真的不知道从哪里开始。我之前使用SQL数据库和PHP前端做了一些工作，但是使用多个服务器则没有做。我听说过可用于Hadoop等大数据项目的工具，但我不确定它适合什么地方。这样的项目，太棒了!

最佳答案

由于您对这些事情没有太多的经验，因此您可能希望查看Cloudera之类的项目。具体来说，他们的resources页面上有一组不错的视频和文章。

可靠信息的另一个来源(我个人使用)是通过单击堆栈溢出tag并选择votes选项。有关big data过多主题的许多好问题已经存在。

关于csv - 如何为 “big data”分析项目设置架构？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32746059/

上一篇：java - map 上的条件减少计数器以控制 map 输出

下一篇：hadoop - Hive查询的输出消息

相关文章：

apache-spark - Spark + 写入 Hive 表 + 解决方法

hadoop - Hadoop-MapReduce集群中此数据存储库的大小不断增加

PowerShell:导入没有标题的 CSV 并删除部分重复行

excel - 使用 VBA 复制粘贴脚本比较两个 CSV 文档

python - 如何使用 train_test_split 在交叉验证中保持测试大小不变？

csv - Schema.ini 未在 csv 文件的“(双引号)之后提供数据

hadoop - 如何使用Apache Flume过滤多个源数据？

java - 在BloomFilter中添加键时出现NullPointerException

hadoop - Apache Kylin 容错

hadoop - lily solr hbase 索引器 : add indexer indexdemo-indexer. xml