我需要实现一个Web爬网程序以爬网到网站以每天获取数据。做这个的最好方式是什么?我应该编写一个普通脚本并每天重复一次吗?如果使用脚本,则无法使用域类。
有什么建议吗?
最佳答案
我建议使用XmlSlurper从站点读取数据,使其在Grails中的服务中使用,并使用Quartz插件进行调度。这样,您就可以访问Grails中的域模型,并且可以使用slurper的出色功能来获取HTML。您可能还需要像Nekohtml http://nekohtml.sourceforge.net这样的解析器。
关于grails - groovy中的Web爬虫和Grails每天都要爬网,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13657349/