我想抓取这个网站:http://www.machinerytrader.com/list/list.aspx?ETID=1&catid=1002
我最初尝试使用 PHP 来执行此操作,但发现正文 html 已加密。所以看起来这个 html 最好使用像 phantomjs 这样的 headless webkit 来访问。
我的问题很笼统:在 PhantomJS 中抓取这些数据然后将其存储在 MySQL 中的最佳方法是什么?
我还没有在网上看到任何这种转变的例子,所以没有什么可以解决的。
更新:
阅读一些内容后,我认为使用 CasperJS 及其下载功能在本地存储原始 html,然后稍后使用 PHP 解析它可能是有意义的……但这种方法非常迂回……
最佳答案
获得信息后,您可以简单地调用由您控制的站点并使用发布请求将数据存储在数据库中
casper.then(function(){
casper.open("www.mipage.com/saveIntheDBonPost.php", {
method: 'post',
data:{
'title': ''+globalInfo.title,
'body': ''+globalInfo.body
}
});
})
关于php - 使用 Phantomjs 进行屏幕抓取,结果存储在 MYSQL 中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12875596/