java - 从 Java 进行数据处理的工具

标签 java sql hadoop bigdata data-processing

我有一个遗留系统,它使用 SAS 从数据库中提取原始数据,对其进行清理和整合,然后对输出的文档进行评分。

我想转移到 Java 或类似的面向对象的解决方案,这样我就可以实现单元测试,以及更好的代码控制。 (我不是在谈论检修整个系统,而是在我可以的地方注入(inject) java)。

就数据大小而言,我们谈论的是大约 1 TB 的数据被摄取和创建。在扩展方面,这可能会增加 10 倍左右,但不太可能像全局 Web 项目那样大规模增加。

问题是 - 哪种工具最适合此类项目?

我在哪里可以找到这些信息 - 应该使用什么搜索词?

在 SQL 数据库上进行处理(根据需要创建和删除表、添加列)是合适的还是糟糕的解决方案?

我已经快速了解了 Hadoop - 但由于该项目的规模较小,Hadoop 是否会成为一个不必要的复杂问题?

是否有任何 Java 包在合并、连接、排序、分组数据集以及修改数据方面具有与 SAS 或 SQL 类似的功能?

最佳答案

根据您的问题陈述,我很难准确地规定您需要什么。

这听起来像是一个很好的数据库 API(即 native JDBC 可能是您所需要的一个好的开源数据库后端)

不过,我觉得你应该花点时间看看Lucene .这是一个很棒的工具,可以很好地满足您的评分需求。对您的问题采用搜索引擎索引方法可能会卓有成效。

关于java - 从 Java 进行数据处理的工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19308921/

相关文章:

java - Hadoop分布式缓存:使用-libjars:如何在代码中使用外部jar

java - java中如何比较两个字符串?

java - 在 Activity-Back-Stack 上回收 Activity View

java - 对捕获组的主题感到困惑吗?

php - 导出sql数据库时utf8列中的乱码数据

php - 如何查找自定义字段等于 '1234' 的 phpBB 用户?

java - Log4j 不将日志写入数据库

sql - 为什么在 select translate (' @' ,' ' ,'' ) from Dual 时输出为空;以及为什么结果是 @ at select replacement (' @' ,' ' ,'' ) from Dual;

hadoop - 谁与 yarn 中的名称节点通信?

hadoop - 配置单元 : Drop database