hadoop - MapReduceIndexerTool 应该如何看起来像吗啡线?

标签 hadoop mapreduce morphline

我想高效地搜索大量日志(大小约为 1 TB,放置在多台机器上)。

为此,我想构建一个由 Flume、Hadoop 和 Solr 组成的基础架构。 Flume 将从几台机器上获取日志并将它们放入 HDFS。

现在,我希望能够使用 map reduce 作业为这些日志编制索引,以便能够使用 Solr 搜索它们。我发现 MapReduceIndexerTool这是为我做的,但我发现它需要一个吗啉

我知道,morphline 通常会对它获取的数据执行一组操作,但如果我想使用 MapReduceIndexerTool,我应该执行哪种操作?

我找不到适用于此 map reduce 作业的 morphline 的任何示例。

恭敬地感谢您。

最佳答案

Cloudera 有一个 guidemorphline 下给出了几乎相似的用例。

enter image description here

In this figure, a Flume Source receives syslog events and sends them to a Flume Morphline Sink, which converts each Flume event to a record and pipes it into a readLine command. The readLine command extracts the log line and pipes it into a grok command. The grok command uses regular expression pattern matching to extract some substrings of the line. It pipes the resulting structured record into the loadSolr command. Finally, the loadSolr command loads the record into Solr, typically a SolrCloud. In the process, raw data or semi-structured data is transformed into structured data according to application modelling requirements.

示例中给出的用例是MapReduceIndexerToolApache Flume Morphline Solr SinkApache Flume MorphlineInterceptor和Morphline Lily等生产工具HBase Indexer 作为其操作的一部分运行,如下图所示:

enter image description here

关于hadoop - MapReduceIndexerTool 应该如何看起来像吗啡线?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49110654/

相关文章:

MongoDB 汇总所有前几周的每周总和

hadoop - hadoop 映射操作如何管理 HDFS 集群上的数据冗余?

hadoop - MapReduceIndexerTool 没有正确地重新索引文档

java - 创建连接到 HBaseTestingUtility 的 HBaseAdmin

hadoop - 如何在缺乏计算机的工厂中利用hbase + hadoop

hadoop - oozie中如何指定多个jar文件

java - Eclipse会忽略条件断点(java for hadoop)

java - 在 Map Reduce 作业 Hadoop 中使用文件中的数据作为 Hash-Map