hadoop - "Hadoop-Solr Lucidworks Project"检索输入名称路径

标签 hadoop solr lucidworks

我正在使用这个项目:https://github.com/lucidworks/hadoop-solr 有谁知道在哪个值中保存了正在处理的文档的名称(或路径)。我想将此值检索到 Solr Admin(将一个字段及其名称添加到我的架构中)。这可能吗?

示例:我希望能够看到文档的名称,查询从中返回相同的结果。

我正在使用此命令运行项目:

    hadoop jar solr-hadoop-job-2.2.5.jar 
    com.lucidworks.hadoop.ingest.IngestJob  
    -Dlww.commit.on.close=true -DcsvDelimiter= 
   -cls com.lucidworks.hadoop.ingest.CSVIngestMapper -c spyros1  
    - i  /usr/local/hadoop/input 
    -of com.lucidworks.hadoop.io.LWMapRedOutputFormat 
    -s http://127.0.1.1:8983/solr

最佳答案

这对我有用:

hadoop jar solr-hadoop-job-2.2.5.jar com.lucidworks.hadoop.ingest.IngestJob  
    -Dlww.commit.on.close=true 
    -Dcom.lucidworks.hadoop.ingest.RegexIngestMapper.regex="\\w+" 
   -Dcom.lucidworks.hadoop.ingest.RegexIngestMapper.groups_to_fields=0=match_ss  
   -cls com.lucidworks.hadoop.ingest.RegexIngestMapper  
   -c collection1 -i /path/* -s http://127.0.1.1:8983/solr
   -of com.lucidworks.hadoop.io.LWMapRedOutputFormat 

另见 this了解更多信息。

关于hadoop - "Hadoop-Solr Lucidworks Project"检索输入名称路径,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39598215/

相关文章:

hadoop - HDFS名称注释在复制文件时失败

hadoop - MapR 配置单元未检测到显示无效 URL 错误的 maprfs :///scheme,

hadoop - Hadoop-DataNode未在从属服务器中运行

java - 使用 Lucene 索引单个 Xml 文件

apache - 如何开发一个简单的搜索引擎以在本地文件中进行全文搜索

java - Solr 抛出 SocketException : Connection reset

hadoop - Spark Standalone 与 python 和 scala 的行为不同

java - Lucidworks 保存 solr 格式未知字段

hadoop - MapReduceIndexerTool - 在 Solr 中索引 HDFS 文件的最佳方式?

elasticsearch - 如何在 SOLR 中创建嵌套的 JSON 对象?