grails - groovy中的Web爬虫和Grails每天都要爬网

标签 grails groovy web-crawler

我需要实现一个Web爬网程序以爬网到网站以每天获取数据。做这个的最好方式是什么?我应该编写一个普通脚本并每天重复一次吗?如果使用脚本,则无法使用域类。

有什么建议吗?

最佳答案

我建议使用XmlSlurper从站点读取数据,使其在Grails中的服务中使用,并使用Quartz插件进行调度。这样,您就可以访问Grails中的域模型,并且可以使用slurper的出色功能来获取HTML。您可能还需要像Nekohtml http://nekohtml.sourceforge.net这样的解析器。

关于grails - groovy中的Web爬虫和Grails每天都要爬网,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13657349/

相关文章:

grails - 防止保留未使用的数据库连接

groovy - 将 PowerMock 与 Spock 结合使用

groovy - 如何使用 Groovy 测试步骤在soapUI 中设置Cookie?

java - 如何用java读取网站源代码

python - 使用 scrapy 为一个 url 创建一个 csv 时输入

seo - 为什么谷歌索引这个?

grails - 如何以编程方式设置gradle依赖项

grails - 没有这样的属性:在grails中安装jasypt时出现GormEncryptedStringType

java - 使用 Spring 作为 grails 前端的后端

grails - params.get()返回复选框的数组和字符串