nutch - 如何在Nutch 2.3中以HBase为后端抓取图像?

标签 nutch

我想从某些网站抓取图像。到目前为止我尝试修改 正则表达式-urlfilter.txt。

我改变了:

 -\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PP
 T|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$

致:

-\.(css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|t
gz|TGZ|mov|MOV|exe|EXE|js|JS)$

但是没有成功。令我惊讶的是,我没有找到任何有关使用 Nutch 2.3 抓取图像的文档。引用任何现有文档确实会有很大帮助。

最佳答案

为了使用 Nutch 获取和存储图像,您必须按照以下步骤操作:

1-添加正则表达式以不过滤图像格式,例如 jpg、jpeg、tif、gif、png 等...(您已经这样做了)

2- 实现用于解析图像的解析插件。有关 Nutch 扩展点和编写所需插件的更多信息,请点击以下链接:

http://wiki.apache.org/nutch/AboutPlugins

http://wiki.apache.org/nutch/WritingPluginExample

3- 告诉 Nutch 已实现的插件并将其用于图像文件格式:

为此,您必须遵循两个不同的步骤,首先,修改conf/parse-plugins.xml并将您实现的插件映射到图像文件格式:

<mimeType name="image/jpeg">
        <plugin id="parse-image" />
</mimeType>
<mimeType name="image/gif">
        <plugin id="parse-image" />
</mimeType>
<mimeType name="image/png">
        <plugin id="parse-image" />
</mimeType>

第二,将实现的插件添加到 nutch-site.xml在 Nutch 运行时运行。您必须将实现的插件添加到 <plugin.includes>属性。

关于nutch - 如何在Nutch 2.3中以HBase为后端抓取图像?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30488071/

相关文章:

java - 集成 apache tomcat 和 solr

java - Nutch Crawler错误:权限被拒绝

hadoop - 如何在摘要爬网中包括以前排除的URL

hadoop -/etc/bin/hadoop 是同步调用吗?

hadoop - 使用Hbase运行Nutch crawler 2.2时获取空指针异常

apache - bin/nutch 注入(inject)爬网/crawldb 网址不起作用

java - 为什么 Apache Nutch 清理作业在云模式下使用 Apache Solr 失败

hadoop - 在hadoop模式下运行nutch时不执行nutch gora类

scrapy - 最好的Web图形搜寻器以提高速度?