我有一个遗留系统,它使用 SAS 从数据库中提取原始数据,对其进行清理和整合,然后对输出的文档进行评分。
我想转移到 Java 或类似的面向对象的解决方案,这样我就可以实现单元测试,以及更好的代码控制。 (我不是在谈论检修整个系统,而是在我可以的地方注入(inject) java)。
就数据大小而言,我们谈论的是大约 1 TB 的数据被摄取和创建。在扩展方面,这可能会增加 10 倍左右,但不太可能像全局 Web 项目那样大规模增加。
问题是 - 哪种工具最适合此类项目?
我在哪里可以找到这些信息 - 应该使用什么搜索词?
在 SQL 数据库上进行处理(根据需要创建和删除表、添加列)是合适的还是糟糕的解决方案?
我已经快速了解了 Hadoop - 但由于该项目的规模较小,Hadoop 是否会成为一个不必要的复杂问题?
是否有任何 Java 包在合并、连接、排序、分组数据集以及修改数据方面具有与 SAS 或 SQL 类似的功能?
最佳答案
根据您的问题陈述,我很难准确地规定您需要什么。
这听起来像是一个很好的数据库 API(即 native JDBC 可能是您所需要的一个好的开源数据库后端)
不过,我觉得你应该花点时间看看Lucene .这是一个很棒的工具,可以很好地满足您的评分需求。对您的问题采用搜索引擎索引方法可能会卓有成效。
关于java - 从 Java 进行数据处理的工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19308921/