hadoop jar jobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jar com.lucidworks.hadoop.ingest.IngestJob -Dlww.commit.on.close=true -DcsvFieldMapping=0=id,1=text -cls com.lucidworks.hadoop.ingest.CSVIngestMapper -c hdp1 -i /user/solr/data/csv/mydata.csv -of com.lucidworks.hadoop.io.LWMapRedOutputFormat -s http://localhost:8983/solr
我已经尝试在命令中使用上面的代码来执行 PDF 文件,但我得到了不需要的输出!
com.lucidworks.hadoop.ingest.CSVIngestMapper
是专门用于CSV文件的,那么对于“PDF文件”有类似的吗?
期待您的帮助。
最佳答案
您应该使用 DirectoryIngestMapper:
hadoop jar jobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jar
com.lucidworks.hadoop.ingest.IngestJob -Dlww.commit.on.close=true
com.lucidworks.hadoop.ingest.DirectoryIngestMapper -c hdp1 -i
/user/solr/data/pdf/*.pdf -of com.lucidworks.hadoop.io.LWMapRedOutputFormat -s
http://localhost:8983/solr
假设 /user/solr/data/pdf/*.pdf
是您的 pdf 所在的位置。
关于hadoop - 如何在 Solr 中索引 HDFS pdf 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29409164/