hadoop - 如何在 Solr 中索引 HDFS pdf 文件?

标签 hadoop indexing solr hdfs

hadoop jar jobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jar com.lucidworks.hadoop.ingest.IngestJob -Dlww.commit.on.close=true -DcsvFieldMapping=0=id,1=text -cls com.lucidworks.hadoop.ingest.CSVIngestMapper -c hdp1 -i /user/solr/data/csv/mydata.csv -of com.lucidworks.hadoop.io.LWMapRedOutputFormat -s http://localhost:8983/solr

我已经尝试在命令中使用上面的代码来执行 PDF 文件,但我得到了不需要的输出!

com.lucidworks.hadoop.ingest.CSVIngestMapper 是专门用于CSV文件的,那么对于“PDF文件”有类似的吗? 期待您的帮助。

最佳答案

您应该使用 DirectoryIngestMapper:

hadoop jar jobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jar 
com.lucidworks.hadoop.ingest.IngestJob -Dlww.commit.on.close=true    
com.lucidworks.hadoop.ingest.DirectoryIngestMapper -c hdp1 -i 
/user/solr/data/pdf/*.pdf -of com.lucidworks.hadoop.io.LWMapRedOutputFormat -s 
http://localhost:8983/solr

假设 /user/solr/data/pdf/*.pdf 是您的 pdf 所在的位置。

关于hadoop - 如何在 Solr 中索引 HDFS pdf 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29409164/

相关文章:

mysql - 在 MySQL 中使用字符串枚举 - 性能问题

search - 无法启动 dse solr 节点

java - 在 HBase MapReduce 任务中加载 native 共享库

hadoop - 在 Hadoop Map/Reduce 中为多个映射器配置 Map Side join

python - 不确定为什么我得到索引超出了OpenCV大小错误的轴的范围

mysql - 查询时间太长

java - 使用 SolrJ 过滤查询排除

java - 如何在 Solr 中将 ResponseWriter 设置为非默认

hadoop - Hive 查询中的格式输出

xml - 如何将多个节点添加到 Hadoop 2.2.0 Yarn?