grails - groovy中的Web爬虫和Grails每天都要爬网

我需要实现一个Web爬网程序以爬网到网站以每天获取数据。做这个的最好方式是什么？我应该编写一个普通脚本并每天重复一次吗？如果使用脚本，则无法使用域类。

有什么建议吗？

最佳答案

我建议使用XmlSlurper从站点读取数据，使其在Grails中的服务中使用，并使用Quartz插件进行调度。这样，您就可以访问Grails中的域模型，并且可以使用slurper的出色功能来获取HTML。您可能还需要像Nekohtml http://nekohtml.sourceforge.net这样的解析器。

关于grails - groovy中的Web爬虫和Grails每天都要爬网，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13657349/

上一篇：mongodb - CloudFoundry mongoDb访问权限

下一篇：amazon-web-services - gitlab CI:加载 key 错误:格式无效

相关文章：

grails - 防止保留未使用的数据库连接

groovy - 将 PowerMock 与 Spock 结合使用

groovy - 如何使用 Groovy 测试步骤在soapUI 中设置Cookie？

java - 如何用java读取网站源代码

python - 使用 scrapy 为一个 url 创建一个 csv 时输入

seo - 为什么谷歌索引这个？

grails - 如何以编程方式设置gradle依赖项

grails - 没有这样的属性:在grails中安装jasypt时出现GormEncryptedStringType

java - 使用 Spring 作为 grails 前端的后端

grails - params.get()返回复选框的数组和字符串