file - 比较两个大文件以调和财务交易

标签 file hadoop mapreduce compare

我正在尝试编写一个程序来比较两个大文件:两个文件应该每天比较财务交易。文件可以是xml或csv格式。
每个文件3到400万行和50列。对帐是根据一组关键字段定义的区域进行的。

输出必须标识具有相同键但数据不同的行

我使用了SQL比较(表中的每个文件)，它可以工作，但需要Oracle等数据库和功能强大的服务器

有没有使用MapReduce概念或基于nosql的解决方案

最佳答案

我认为，每天在任何rdbms(oracle，sql server，mysql，postgre)中对2个3-4m索引表进行比较都是没有问题的，并且不会花费太长时间。

您也可以使用基于MapReduce的数据处理系统(例如Hadoop)进行相同的操作。那里有一些Hadoop即服务平台，其中包括我们的(Xplenty)平台，可以帮助您以按使用量计费的价格快速完成此任务，从而可以降低进行此类处理的成本。我不建议将基于MapReduce的解决方案用于几百万条记录的简单比较，但是如果比较复杂，则可以尝试一下。

关于file - 比较两个大文件以调和财务交易，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18074506/

上一篇：r - 在hadoop系统中实现R程序

下一篇：hadoop - 通过API将XML数据降落到Hadoop中

相关文章：

python - 错误的文件描述符错误

c++ - 麻烦 : convert string to double

hadoop - 为什么会有 Pig 和 Hive

java - pig : Group by ranges/binning data

arrays - 从mapreduce访问json数组的内部元素

java - 如何读入 RCFile

Java-从文件读取并通过数据转换初始化对象

java - 创建一个不能通过 file.delete() 删除的文件

json - 将 JSON 数据从一个表插入到 HIVE 中的另一个表

sorting - 在具有零化简节点的 Mapreduce 中实现简单排序程序时出错